5 دلیل برای اینکه چرا به داده های مصنوعی نیاز دارید

بازنشر افلاطون

دنبال: 0

5 دلیل برای اینکه چرا به داده های مصنوعی نیاز دارید
داده های مصنوعی تولید شده از کوبریک

برای آموزش یک مدل یادگیری ماشینی، به داده نیاز دارید. وظایف علم داده معمولاً یک رقابت Kaggle نیست که در آن شما یک مجموعه داده بزرگ و زیبا دارید که از قبل برچسب گذاری شده است. گاهی اوقات باید داده های خود را جمع آوری، سازماندهی و تمیز کنید. این فرآیند جمع آوری و برچسب گذاری داده ها در دنیای واقعی می تواند زمان بر، دست و پا گیر، پرهزینه، نادرست و گاهی خطرناک باشد. علاوه بر این، در پایان این فرآیند، می‌توانید به داده‌هایی که در دنیای واقعی با آن‌ها برخورد کرده‌اید، از نظر کیفیت، تنوع (مثلاً عدم تعادل طبقاتی) و کمیت، لزوماً داده‌هایی نیستند که می‌خواهید. در زیر مشکلات رایجی وجود دارد که می توانید هنگام کار با داده های واقعی با آنها روبرو شوید:

جمع آوری داده های واقعی و برچسب گذاری مقیاس پذیر نیستند
برچسب گذاری دستی داده های واقعی ممکن است گاهی غیرممکن باشد
داده های واقعی دارای مسائل مربوط به حریم خصوصی و ایمنی هستند
داده های واقعی قابل برنامه ریزی نیستند
مدلی که منحصراً بر روی داده های واقعی آموزش داده شده است، به اندازه کافی کارایی ندارد (به عنوان مثال، سرعت توسعه آهسته)

خوشبختانه، چنین مشکلاتی را می توان با داده های مصنوعی حل کرد. شاید تعجب کنید، داده های مصنوعی چیست? داده‌های مصنوعی را می‌توان به عنوان داده‌های تولید شده مصنوعی تعریف کرد که معمولاً با استفاده از الگوریتم‌هایی ایجاد می‌شوند که فرآیندهای دنیای واقعی را شبیه‌سازی می‌کنند، از رفتار سایر کاربران جاده گرفته تا رفتار نور هنگام تعامل با سطوح. این پست به محدودیت‌های داده‌های دنیای واقعی می‌پردازد، و اینکه چگونه داده‌های مصنوعی می‌توانند به غلبه بر این مشکلات و بهبود عملکرد مدل کمک کنند.

برای مجموعه داده های کوچک، معمولاً امکان جمع آوری و برچسب گذاری دستی داده ها وجود دارد. با این حال، بسیاری از وظایف پیچیده یادگیری ماشین به مجموعه داده های عظیمی برای آموزش نیاز دارند. به عنوان مثال، مدل‌هایی که برای کاربردهای خودروهای خودران آموزش دیده‌اند، به مقادیر زیادی داده جمع‌آوری‌شده از حسگرهای متصل به خودروها یا هواپیماهای بدون سرنشین نیاز دارند. این روند جمع آوری داده ها کند است و می تواند ماه ها یا حتی سال ها طول بکشد. هنگامی که داده‌های خام جمع‌آوری می‌شوند، باید به صورت دستی توسط انسان‌ها حاشیه‌نویسی شوند، که این نیز گران و زمان‌بر است. علاوه بر این، هیچ تضمینی وجود ندارد که داده‌های برچسب‌گذاری شده به عنوان داده‌های آموزشی مفید باشند، زیرا ممکن است حاوی نمونه‌هایی نباشد که شکاف‌های فعلی مدل را در دانش نشان دهد.

[محتوای جاسازی شده] [محتوای جاسازی شده]

برچسب‌گذاری این داده‌ها اغلب شامل کشیدن برچسب‌هایی توسط انسان روی داده‌های حسگر می‌شود. این بسیار پرهزینه است زیرا تیم‌های ML با دستمزد بالا اغلب بخش زیادی از وقت خود را صرف اطمینان از درستی برچسب‌ها و ارسال اشتباهات به برچسب‌گذاران می‌کنند. نقطه قوت اصلی داده های مصنوعی این است که شما می توانید به اندازه دلخواه داده های کاملاً برچسب گذاری شده تولید کنید. تنها چیزی که نیاز دارید راهی برای تولید داده های مصنوعی با کیفیت است.

نرم افزار منبع باز برای تولید داده های مصنوعی: کوبریک (فیلم های چند شی با ماسک های تقسیم بندی، نقشه های عمق و جریان نوری) و SDV (داده های جدولی، رابطه ای و سری زمانی).

برخی از (از بین بسیاری) شرکت‌هایی که محصولاتی را می‌فروشند یا پلتفرم‌هایی می‌سازند که می‌توانند داده‌های مصنوعی تولید کنند، عبارتند از Gretel.ai (مجموعه داده های مصنوعی که حریم خصوصی داده های واقعی را تضمین می کند)، NVIDIA (همه جهان)، و دامنه موازی (خودروهای خودران). برای بیشتر، لیست 2022 شرکت های داده مصنوعی را ببینید.

5 دلیل برای اینکه چرا به داده های مصنوعی نیاز دارید
تصویر از دامنه موازی

برخی از داده ها وجود دارد که انسان نمی تواند به طور کامل آنها را تفسیر و برچسب گذاری کند. در زیر چند مورد استفاده وجود دارد که داده مصنوعی تنها گزینه است:

تخمین دقیق عمق و جریان نوری از تصاویر تک
برنامه های کاربردی خودران که از داده های راداری استفاده می کنند که برای چشم انسان قابل مشاهده نیست
تولید جعلی عمیق که می تواند برای آزمایش سیستم های تشخیص چهره استفاده شود

5 دلیل برای اینکه چرا به داده های مصنوعی نیاز دارید
تصویر مایکل گالارنیک

داده های مصنوعی برای برنامه های کاربردی در حوزه هایی که نمی توانید به راحتی داده های واقعی را دریافت کنید بسیار مفید است. این شامل برخی از انواع داده‌های تصادفات رانندگی و بسیاری از انواع داده‌های بهداشتی است که دارای محدودیت‌های حریم خصوصی هستند (به عنوان مثال، پرونده الکترونیک سلامت). در سال های اخیر، محققان مراقبت های بهداشتی به پیش بینی فیبریلاسیون دهلیزی (ریتم نامنظم قلب) با استفاده از سیگنال های ECG و PPG علاقه مند شده اند. توسعه یک آشکارساز آریتمی نه تنها چالش برانگیز است زیرا حاشیه نویسی این سیگنال ها خسته کننده و پرهزینه است، بلکه به دلیل محدودیت های حریم خصوصی نیز هست. این یکی از دلایلی است که وجود دارد تحقیق در مورد شبیه سازی این سیگنال ها.

تأکید بر این نکته مهم است که جمع‌آوری داده‌های واقعی فقط زمان و انرژی نمی‌گیرد، بلکه در واقع می‌تواند خطرناک باشد. یکی از مشکلات اصلی برنامه های روباتیک مانند اتومبیل های خودران این است که آنها برنامه های فیزیکی یادگیری ماشین هستند. شما نمی توانید یک مدل ناامن را در دنیای واقعی مستقر کنید و به دلیل کمبود داده های مرتبط دچار خرابی شوید. تقویت یک مجموعه داده با داده های مصنوعی می تواند به مدل ها کمک کند تا از این مشکلات جلوگیری کنند.

برخی از شرکت‌هایی که از داده‌های مصنوعی برای بهبود ایمنی برنامه‌ها استفاده می‌کنند، در زیر آمده است: تویوتا, Waymoو سفر دریایی.

5 دلیل برای اینکه چرا به داده های مصنوعی نیاز دارید
تصویر از دامنه موازی

تصویری مصنوعی از کودک مسدود شده روی دوچرخه که از پشت اتوبوس مدرسه بیرون می‌آید و با دوچرخه در حال عبور از خیابان در محیطی حومه‌ای به سبک کالیفرنیا است.

کاربردهای وسایل نقلیه خودران اغلب با رویدادهای نسبتاً «غیر معمول» (نسبت به شرایط رانندگی عادی) مانند عابران پیاده در شب یا دوچرخه سوارانی که در وسط جاده هستند، سروکار دارند. مدل ها اغلب به صدها هزار یا حتی میلیون ها مثال برای یادگیری یک سناریو نیاز دارند. یکی از مشکلات اصلی این است که داده‌های دنیای واقعی جمع‌آوری‌شده ممکن است از نظر کیفیت، تنوع (مثلاً عدم تعادل طبقاتی، شرایط آب و هوایی، مکان) و کمیت آن چیزی نباشد که شما به دنبال آن هستید. مشکل دیگر این است که برای ماشین‌های خودران و روبات‌ها، برخلاف وظایف یادگیری ماشین سنتی با مجموعه داده‌های ثابت و معیارهای ثابت، همیشه نمی‌دانید به چه داده‌هایی نیاز دارید. در حالی که برخی از تکنیک های افزایش داده ها که به طور سیستماتیک یا تصادفی تصاویر را تغییر می دهند مفید هستند، این تکنیک ها می توانند مشکلات خود را معرفی کنند.

اینجاست که داده‌های مصنوعی وارد می‌شوند. APIهای تولید داده مصنوعی به شما این امکان را می‌دهند که مجموعه داده‌ها را مهندسی کنید. این API ها می توانند در هزینه های شما صرفه جویی زیادی کنند زیرا ساخت ربات ها و جمع آوری داده ها در دنیای واقعی بسیار گران است. تلاش برای تولید داده و کشف اصول مهندسی با استفاده از تولید مجموعه داده مصنوعی بسیار بهتر و سریعتر است.

نمونه‌های زیر نشان می‌دهند که چگونه داده‌های مصنوعی قابل برنامه‌ریزی به مدل‌ها در یادگیری کمک می‌کنند: جلوگیری از تراکنش های تقلبی (American Express), تشخیص بهتر دوچرخه سوار (دامنه موازی)و تجزیه و تحلیل و بررسی جراحی (Hutom.io).

5 دلیل برای اینکه چرا به داده های مصنوعی نیاز دارید
مراحل چرخه توسعه مدل | تصویر از ژول اس دامجی

در صنعت، وجود دارد بسیاری از عواملی که بر دوام / عملکرد یک پروژه یادگیری ماشینی در توسعه و تولید تأثیر می گذارد (به عنوان مثال، جمع آوری داده ها، حاشیه نویسی، آموزش مدل، مقیاس بندی، استقرار، نظارت، بازآموزی مدل، و سرعت توسعه). به تازگی، 18 مهندس یادگیری ماشین در یک مطالعه مصاحبه شرکت کردند که هدفشان درک شیوه‌ها و چالش‌های رایج MLOps در سازمان‌ها و برنامه‌های کاربردی (مانند وسایل نقلیه خودران، سخت‌افزار کامپیوتر، خرده‌فروشی، تبلیغات، سیستم‌های توصیه‌کننده و غیره) بود. یکی از نتایج این مطالعه اهمیت سرعت توسعه بود که تقریباً می‌توان آن را به عنوان توانایی نمونه‌سازی سریع و تکرار ایده‌ها تعریف کرد.

یکی از عوامل مؤثر بر سرعت توسعه، نیاز به داده‌ها برای انجام آموزش و ارزیابی مدل اولیه است و همچنین بازآموزی مکرر مدل به دلیل کاهش عملکرد مدل در طول زمان به دلیل جابجایی داده ها، رانش مفهومی، یا حتی انحراف آموزش در قطار.

5 دلیل برای اینکه چرا به داده های مصنوعی نیاز دارید
تصویر از ظاهرا هوش مصنوعی

این مطالعه همچنین گزارش داد که این نیاز باعث شد برخی از سازمان‌ها تیمی را برای برچسب‌گذاری مکرر داده‌های زنده تشکیل دهند. این گران، وقت گیر است و توانایی سازمان را برای بازآموزی مکرر مدل ها محدود می کند.

5 دلیل برای اینکه چرا به داده های مصنوعی نیاز دارید
تصویر از Gretel.ai

توجه داشته باشید، این نمودار نشان نمی دهد که چگونه می توان از داده های مصنوعی برای مواردی مانند استفاده کرد تست MLOps در توصیه کننده ها.

داده های مصنوعی این پتانسیل را دارد که با داده های دنیای واقعی در چرخه زندگی یادگیری ماشین (تصویر بالا) استفاده شود تا به سازمان ها کمک کند تا مدل های خود را طولانی تر نگه دارند.

تولید داده مصنوعی روز به روز در جریان کار یادگیری ماشین رایج تر می شود. در حقیقت، گارتنر پیش بینی می کند که تا سال 2030، از داده های مصنوعی بسیار بیشتر از داده های دنیای واقعی برای آموزش مدل های یادگیری ماشین استفاده می شود. اگر سوال یا نظری در مورد این پست دارید، در نظرات زیر یا از طریق آن در میان بگذارید توییتر.

مایکل گالارنیک یک متخصص علوم داده است و در روابط توسعه دهندگان در هر مقیاسی کار می کند.