داده های مصنوعی تولید شده از کوبریک
برای آموزش یک مدل یادگیری ماشینی، به داده نیاز دارید. وظایف علم داده معمولاً یک رقابت Kaggle نیست که در آن شما یک مجموعه داده بزرگ و زیبا دارید که از قبل برچسب گذاری شده است. گاهی اوقات باید داده های خود را جمع آوری، سازماندهی و تمیز کنید. این فرآیند جمع آوری و برچسب گذاری داده ها در دنیای واقعی می تواند زمان بر، دست و پا گیر، پرهزینه، نادرست و گاهی خطرناک باشد. علاوه بر این، در پایان این فرآیند، میتوانید به دادههایی که در دنیای واقعی با آنها برخورد کردهاید، از نظر کیفیت، تنوع (مثلاً عدم تعادل طبقاتی) و کمیت، لزوماً دادههایی نیستند که میخواهید. در زیر مشکلات رایجی وجود دارد که می توانید هنگام کار با داده های واقعی با آنها روبرو شوید:
- جمع آوری داده های واقعی و برچسب گذاری مقیاس پذیر نیستند
- برچسب گذاری دستی داده های واقعی ممکن است گاهی غیرممکن باشد
- داده های واقعی دارای مسائل مربوط به حریم خصوصی و ایمنی هستند
- داده های واقعی قابل برنامه ریزی نیستند
- مدلی که منحصراً بر روی داده های واقعی آموزش داده شده است، به اندازه کافی کارایی ندارد (به عنوان مثال، سرعت توسعه آهسته)
خوشبختانه، چنین مشکلاتی را می توان با داده های مصنوعی حل کرد. شاید تعجب کنید، داده های مصنوعی چیست? دادههای مصنوعی را میتوان به عنوان دادههای تولید شده مصنوعی تعریف کرد که معمولاً با استفاده از الگوریتمهایی ایجاد میشوند که فرآیندهای دنیای واقعی را شبیهسازی میکنند، از رفتار سایر کاربران جاده گرفته تا رفتار نور هنگام تعامل با سطوح. این پست به محدودیتهای دادههای دنیای واقعی میپردازد، و اینکه چگونه دادههای مصنوعی میتوانند به غلبه بر این مشکلات و بهبود عملکرد مدل کمک کنند.
برای مجموعه داده های کوچک، معمولاً امکان جمع آوری و برچسب گذاری دستی داده ها وجود دارد. با این حال، بسیاری از وظایف پیچیده یادگیری ماشین به مجموعه داده های عظیمی برای آموزش نیاز دارند. به عنوان مثال، مدلهایی که برای کاربردهای خودروهای خودران آموزش دیدهاند، به مقادیر زیادی داده جمعآوریشده از حسگرهای متصل به خودروها یا هواپیماهای بدون سرنشین نیاز دارند. این روند جمع آوری داده ها کند است و می تواند ماه ها یا حتی سال ها طول بکشد. هنگامی که دادههای خام جمعآوری میشوند، باید به صورت دستی توسط انسانها حاشیهنویسی شوند، که این نیز گران و زمانبر است. علاوه بر این، هیچ تضمینی وجود ندارد که دادههای برچسبگذاری شده به عنوان دادههای آموزشی مفید باشند، زیرا ممکن است حاوی نمونههایی نباشد که شکافهای فعلی مدل را در دانش نشان دهد.
[محتوای جاسازی شده] [محتوای جاسازی شده]
برچسبگذاری این دادهها اغلب شامل کشیدن برچسبهایی توسط انسان روی دادههای حسگر میشود. این بسیار پرهزینه است زیرا تیمهای ML با دستمزد بالا اغلب بخش زیادی از وقت خود را صرف اطمینان از درستی برچسبها و ارسال اشتباهات به برچسبگذاران میکنند. نقطه قوت اصلی داده های مصنوعی این است که شما می توانید به اندازه دلخواه داده های کاملاً برچسب گذاری شده تولید کنید. تنها چیزی که نیاز دارید راهی برای تولید داده های مصنوعی با کیفیت است.
نرم افزار منبع باز برای تولید داده های مصنوعی: کوبریک (فیلم های چند شی با ماسک های تقسیم بندی، نقشه های عمق و جریان نوری) و SDV (داده های جدولی، رابطه ای و سری زمانی).
برخی از (از بین بسیاری) شرکتهایی که محصولاتی را میفروشند یا پلتفرمهایی میسازند که میتوانند دادههای مصنوعی تولید کنند، عبارتند از Gretel.ai (مجموعه داده های مصنوعی که حریم خصوصی داده های واقعی را تضمین می کند)، NVIDIA (همه جهان)، و دامنه موازی (خودروهای خودران). برای بیشتر، لیست 2022 شرکت های داده مصنوعی را ببینید.
تصویر از دامنه موازی
برخی از داده ها وجود دارد که انسان نمی تواند به طور کامل آنها را تفسیر و برچسب گذاری کند. در زیر چند مورد استفاده وجود دارد که داده مصنوعی تنها گزینه است:
- تخمین دقیق عمق و جریان نوری از تصاویر تک
- برنامه های کاربردی خودران که از داده های راداری استفاده می کنند که برای چشم انسان قابل مشاهده نیست
- تولید جعلی عمیق که می تواند برای آزمایش سیستم های تشخیص چهره استفاده شود
تصویر مایکل گالارنیک
داده های مصنوعی برای برنامه های کاربردی در حوزه هایی که نمی توانید به راحتی داده های واقعی را دریافت کنید بسیار مفید است. این شامل برخی از انواع دادههای تصادفات رانندگی و بسیاری از انواع دادههای بهداشتی است که دارای محدودیتهای حریم خصوصی هستند (به عنوان مثال، پرونده الکترونیک سلامت). در سال های اخیر، محققان مراقبت های بهداشتی به پیش بینی فیبریلاسیون دهلیزی (ریتم نامنظم قلب) با استفاده از سیگنال های ECG و PPG علاقه مند شده اند. توسعه یک آشکارساز آریتمی نه تنها چالش برانگیز است زیرا حاشیه نویسی این سیگنال ها خسته کننده و پرهزینه است، بلکه به دلیل محدودیت های حریم خصوصی نیز هست. این یکی از دلایلی است که وجود دارد تحقیق در مورد شبیه سازی این سیگنال ها.
تأکید بر این نکته مهم است که جمعآوری دادههای واقعی فقط زمان و انرژی نمیگیرد، بلکه در واقع میتواند خطرناک باشد. یکی از مشکلات اصلی برنامه های روباتیک مانند اتومبیل های خودران این است که آنها برنامه های فیزیکی یادگیری ماشین هستند. شما نمی توانید یک مدل ناامن را در دنیای واقعی مستقر کنید و به دلیل کمبود داده های مرتبط دچار خرابی شوید. تقویت یک مجموعه داده با داده های مصنوعی می تواند به مدل ها کمک کند تا از این مشکلات جلوگیری کنند.
برخی از شرکتهایی که از دادههای مصنوعی برای بهبود ایمنی برنامهها استفاده میکنند، در زیر آمده است: تویوتا, Waymoو سفر دریایی.
تصویر از دامنه موازی
تصویری مصنوعی از کودک مسدود شده روی دوچرخه که از پشت اتوبوس مدرسه بیرون میآید و با دوچرخه در حال عبور از خیابان در محیطی حومهای به سبک کالیفرنیا است.
کاربردهای وسایل نقلیه خودران اغلب با رویدادهای نسبتاً «غیر معمول» (نسبت به شرایط رانندگی عادی) مانند عابران پیاده در شب یا دوچرخه سوارانی که در وسط جاده هستند، سروکار دارند. مدل ها اغلب به صدها هزار یا حتی میلیون ها مثال برای یادگیری یک سناریو نیاز دارند. یکی از مشکلات اصلی این است که دادههای دنیای واقعی جمعآوریشده ممکن است از نظر کیفیت، تنوع (مثلاً عدم تعادل طبقاتی، شرایط آب و هوایی، مکان) و کمیت آن چیزی نباشد که شما به دنبال آن هستید. مشکل دیگر این است که برای ماشینهای خودران و روباتها، برخلاف وظایف یادگیری ماشین سنتی با مجموعه دادههای ثابت و معیارهای ثابت، همیشه نمیدانید به چه دادههایی نیاز دارید. در حالی که برخی از تکنیک های افزایش داده ها که به طور سیستماتیک یا تصادفی تصاویر را تغییر می دهند مفید هستند، این تکنیک ها می توانند مشکلات خود را معرفی کنند.
اینجاست که دادههای مصنوعی وارد میشوند. APIهای تولید داده مصنوعی به شما این امکان را میدهند که مجموعه دادهها را مهندسی کنید. این API ها می توانند در هزینه های شما صرفه جویی زیادی کنند زیرا ساخت ربات ها و جمع آوری داده ها در دنیای واقعی بسیار گران است. تلاش برای تولید داده و کشف اصول مهندسی با استفاده از تولید مجموعه داده مصنوعی بسیار بهتر و سریعتر است.
نمونههای زیر نشان میدهند که چگونه دادههای مصنوعی قابل برنامهریزی به مدلها در یادگیری کمک میکنند: جلوگیری از تراکنش های تقلبی (American Express), تشخیص بهتر دوچرخه سوار (دامنه موازی)و تجزیه و تحلیل و بررسی جراحی (Hutom.io).
مراحل چرخه توسعه مدل | تصویر از ژول اس دامجی
در صنعت، وجود دارد بسیاری از عواملی که بر دوام / عملکرد یک پروژه یادگیری ماشینی در توسعه و تولید تأثیر می گذارد (به عنوان مثال، جمع آوری داده ها، حاشیه نویسی، آموزش مدل، مقیاس بندی، استقرار، نظارت، بازآموزی مدل، و سرعت توسعه). به تازگی، 18 مهندس یادگیری ماشین در یک مطالعه مصاحبه شرکت کردند که هدفشان درک شیوهها و چالشهای رایج MLOps در سازمانها و برنامههای کاربردی (مانند وسایل نقلیه خودران، سختافزار کامپیوتر، خردهفروشی، تبلیغات، سیستمهای توصیهکننده و غیره) بود. یکی از نتایج این مطالعه اهمیت سرعت توسعه بود که تقریباً میتوان آن را به عنوان توانایی نمونهسازی سریع و تکرار ایدهها تعریف کرد.
یکی از عوامل مؤثر بر سرعت توسعه، نیاز به دادهها برای انجام آموزش و ارزیابی مدل اولیه است و همچنین بازآموزی مکرر مدل به دلیل کاهش عملکرد مدل در طول زمان به دلیل جابجایی داده ها، رانش مفهومی، یا حتی انحراف آموزش در قطار.
تصویر از ظاهرا هوش مصنوعی
این مطالعه همچنین گزارش داد که این نیاز باعث شد برخی از سازمانها تیمی را برای برچسبگذاری مکرر دادههای زنده تشکیل دهند. این گران، وقت گیر است و توانایی سازمان را برای بازآموزی مکرر مدل ها محدود می کند.
تصویر از Gretel.ai
توجه داشته باشید، این نمودار نشان نمی دهد که چگونه می توان از داده های مصنوعی برای مواردی مانند استفاده کرد تست MLOps در توصیه کننده ها.
داده های مصنوعی این پتانسیل را دارد که با داده های دنیای واقعی در چرخه زندگی یادگیری ماشین (تصویر بالا) استفاده شود تا به سازمان ها کمک کند تا مدل های خود را طولانی تر نگه دارند.
تولید داده مصنوعی روز به روز در جریان کار یادگیری ماشین رایج تر می شود. در حقیقت، گارتنر پیش بینی می کند که تا سال 2030، از داده های مصنوعی بسیار بیشتر از داده های دنیای واقعی برای آموزش مدل های یادگیری ماشین استفاده می شود. اگر سوال یا نظری در مورد این پست دارید، در نظرات زیر یا از طریق آن در میان بگذارید توییتر.
مایکل گالارنیک یک متخصص علوم داده است و در روابط توسعه دهندگان در هر مقیاسی کار می کند.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://www.kdnuggets.com/2023/02/5-reasons-need-synthetic-data.html?utm_source=rss&utm_medium=rss&utm_campaign=5-reasons-why-you-need-synthetic-data
- 2022
- a
- توانایی
- درباره ما
- بالاتر
- تصادف
- اکتساب
- در میان
- واقعا
- آگهی
- اثر
- موثر بر
- الگوریتم
- معرفی
- همیشه
- امریکایی
- امریکن اکسپرس
- مقدار
- تحلیل
- و
- دیگر
- رابط های برنامه کاربردی
- کاربرد
- برنامه های کاربردی
- خود مختار
- وسیله نقلیه خودمختار
- خودروهای خودمختار
- به عقب
- زیرا
- تبدیل شدن به
- پشت سر
- بودن
- در زیر
- معیار
- مفید
- بهتر
- سفید
- ساختن
- اتوبوس
- ماشین
- اتومبیل
- موارد
- چالش ها
- به چالش کشیدن
- کودک
- کلاس
- جمع آوری
- جمع آوری
- مجموعه
- نظرات
- مشترک
- شرکت
- رقابت
- پیچیده
- کامپیوتر
- مفهوم
- شرایط
- محتوا
- هسته
- پوشش
- سقوط
- ایجاد شده
- سرپرستی
- جاری
- چرخه
- خطرناک
- داده ها
- علم اطلاعات
- مجموعه داده ها
- مجموعه داده ها
- مقدار
- عمیق
- جعل عمیق
- مشخص
- گسترش
- گسترش
- عمق
- کشف
- توسعه دهنده
- در حال توسعه
- پروژه
- تنوع
- نمی کند
- دامنه
- حوزه
- آیا
- پایین
- رسم
- رانندگی
- هواپیماهای بدون سرنشین
- به آسانی
- جاسازی شده
- سنگ سنباده
- اهمیت دادن
- رویارویی
- انرژی
- مهندس
- مهندسی
- مورد تأیید
- کافی
- اطمینان حاصل شود
- محیط
- و غیره
- ارزیابی
- حتی
- حوادث
- مثال
- مثال ها
- منحصرا
- گران
- صریح
- چهره
- تشخیص چهره
- عوامل
- سریعتر
- شکل
- ثابت
- جریان
- پیروی
- جعلی
- رایگان
- مکرر
- غالبا
- از جانب
- کاملا
- بعلاوه
- گارتنر
- تولید می کنند
- تولید
- نسل
- دریافت کنید
- GIF
- هدف
- می رود
- ضمانت
- سخت افزار
- سلامتی
- بهداشت و درمان
- قلب
- کمک
- کمک می کند
- زیاد
- نماد
- خیلی
- چگونه
- اما
- HTML
- HTTPS
- بزرگ
- انسان
- انسان
- صدها نفر
- ایده ها
- تصویر
- تصاویر
- عدم تعادل
- اهمیت
- مهم
- غیر ممکن
- بهبود
- in
- نادرست
- شامل
- شامل
- صنعت
- اول
- در ارتباط بودن
- علاقه مند
- مصاحبه
- مسائل
- IT
- kdnuggets
- نگاه داشتن
- دانستن
- دانش
- برچسب
- برچسب
- برچسب ها
- عدم
- بزرگ
- یاد گرفتن
- یادگیری
- مهندسان یادگیرنده
- رهبری
- زندگی
- سبک
- محدودیت
- محدودیت
- لینک
- فهرست
- زنده
- داده های زنده
- محل
- دیگر
- به دنبال
- خیلی
- دستگاه
- فراگیری ماشین
- عمده
- ساخت
- دستی
- بسیاری
- نقشه ها
- ماسک
- عظیم
- متوسط
- متوسط
- قدرت
- میلیون ها نفر
- اشتباهات
- ML
- MLO ها
- مدل
- مدل
- پول
- نظارت بر
- ماه
- بیش
- اکثر
- لزوما
- نیاز
- شب
- طبیعی
- کارت گرافیک Nvidia
- OmniVerse
- ONE
- گزینه
- کدام سازمان ها
- سازمان های
- دیگر
- غلبه بر
- خود
- پرداخت
- موازی
- بخش
- کارایی
- فیزیکی
- سیستم عامل
- افلاطون
- هوش داده افلاطون
- PlatoData
- ممکن
- پست
- پتانسیل
- شیوه های
- پیش بینی
- پیش بینی می کند
- از اصول
- خلوت
- مشکل
- مشکلات
- روند
- فرآیندهای
- محصولات
- حرفه ای
- پروژه
- نمونه اولیه
- کیفیت
- مقدار
- سوالات
- رادار
- سریعا
- خام
- داده های خام
- رسیدن به
- واقعی
- دنیای واقعی
- دلیل
- دلایل
- اخیر
- تازه
- به رسمیت شناختن
- روابط
- نسبتا
- مربوط
- گزارش
- نیاز
- تحقیق
- محققان
- محدودیت های
- خرده فروشی
- بازآموزی
- این فایل نقد می نویسید:
- سواری
- جاده
- ربات ها
- تقریبا
- ایمنی
- ذخیره
- مقیاس پذیر
- مقیاس گذاری
- سناریو
- مدرسه
- علم
- تقسیم بندی
- خود رانندگی
- فروش
- در حال ارسال
- سنسور
- سلسله
- تنظیم
- مجموعه
- سیگنال
- پس از
- تنها
- سرخ کردن
- کند
- کوچک
- نرم افزار
- برخی از
- منبع
- خرج کردن
- خیابان
- استحکام
- مهاجرت تحصیلی
- ترکیبی
- داده های مصنوعی
- سیستم های
- گرفتن
- وظایف
- تیم
- تیم ها
- تکنیک
- قوانین و مقررات
- آزمون
- تست
- La
- شان
- اشیاء
- هزاران نفر
- زمان
- سری زمانی
- زمان بر
- به
- بالا
- سنتی
- قطار
- آموزش دیده
- آموزش
- معاملات
- انواع
- به طور معمول
- درک
- استفاده کنید
- کاربران
- معمولا
- استفاده کنید
- وسیله نقلیه
- وسایل نقلیه
- VeloCity
- فیلم های
- قابل رویت
- هوا
- چی
- که
- اراده
- تعجب کردم
- گردش کار
- کارگر
- با این نسخهها کار
- جهان
- خواهد بود
- سال
- شما
- یوتیوب
- زفیرنت