این یک پست مهمان توسط Jihye Park، دانشمند داده در MUSINSA است.
موسینسا یکی از بزرگترین پلتفرم های مد آنلاین در کره جنوبی است که به 8.4 میلیون مشتری خدمات رسانی می کند و 6,000 برند مد را به فروش می رساند. ترافیک ماهانه کاربران ما به 4 میلیون می رسد و بیش از 90 درصد جمعیت ما را نوجوانان و بزرگسالان جوانی تشکیل می دهند که به روند مد حساس هستند. MUSINSA یک رهبر پلتفرم تنظیم روند در کشور است که با حجم انبوه داده پیشرو است.
تیم راهحل دادههای MUSINSA در همه چیز مربوط به دادههای جمعآوریشده از فروشگاه MUSINSA مشارکت میکند. ما توسعه پشته کامل را از جمعآوری گزارش تا مدلسازی داده و ارائه مدل انجام میدهیم. ما محصولات مختلف مبتنی بر دادهها را توسعه میدهیم، از جمله سرویس پیشنهاد محصول زنده در صفحه اصلی برنامه و سرویس برجستهسازی کلمات کلیدی که کلماتی مانند «اندازه» یا «سطح رضایت» را از بررسیهای متنی شناسایی و برجسته میکند.
چالشها در فرآیند بررسی خودکار تصویر
کیفیت و کمیت نظرات مشتریان برای کسبوکارهای تجارت الکترونیک بسیار مهم است، زیرا مشتریان بدون اینکه شخصاً محصولات را ببینند، تصمیمگیری میکنند. ما به کسانی که در مورد محصولاتی که خریداری کردهاند، نظرات تصویری مینویسند (یعنی نظراتی با عکسهای محصولات یا عکسهایی از آنها در حال پوشیدن/استفاده از محصولات) مینویسند تا تجربه مشتری را افزایش داده و نرخ تبدیل خرید را افزایش دهند. برای تعیین اینکه آیا عکس های ارسالی با معیارهای اعتبار ما مطابقت دارند یا خیر، همه عکس ها به صورت جداگانه توسط انسان بررسی می شوند. به عنوان مثال، معیار ما بیان میکند که «بازبینی سبک» باید حاوی عکسهایی باشد که تمام بدن فردی را در حال استفاده/استفاده از محصول نشان میدهد، در حالی که «بررسی محصول» باید عکس کاملی از محصول ارائه دهد. تصاویر زیر نمونه هایی از بررسی محصول و بررسی سبک را نشان می دهد. رضایت آپلودکنندگان برای استفاده از عکسها صادر شده است.
روزانه بیش از 20,000 عکس در پلت فرم فروشگاه MUSINSA آپلود می شود که نیاز به بازرسی دارند. فرآیند بازرسی تصاویر را به عنوان "بسته"، "محصول"، "تمام طول" یا "نیمه طول" طبقه بندی می کند. فرآیند بازرسی تصویر کاملاً دستی است، بنابراین بسیار وقت گیر بود و طبقه بندی ها اغلب توسط افراد مختلف، حتی با دستورالعمل ها، متفاوت انجام می شود. در مواجهه با این چالش، استفاده کردیم آمازون SageMaker برای خودکار کردن این کار
Amazon SageMaker یک سرویس کاملاً مدیریت شده برای ساخت، آموزش و استقرار مدلهای یادگیری ماشین (ML) برای هر موردی با زیرساخت، ابزار و گردش کار کاملاً مدیریت شده است. این به ما اجازه می دهد تا به سرعت خدمات بازرسی تصویر خودکار را با نتایج خوب پیاده سازی کنیم.
در مورد اینکه چگونه مشکلات خود را با استفاده از مدلهای ML حل کردهایم و در طول مسیر از Amazon SageMaker استفاده کردهایم، به جزئیات خواهیم پرداخت.
اتوماسیون فرآیند بازرسی تصویر بازبینی
اولین گام برای خودکارسازی فرآیند بازرسی بازبینی تصویر، برچسبگذاری دستی تصاویر بود، در نتیجه آنها را با دستهها و معیارهای بازرسی مناسب تطبیق داد. برای مثال، ما تصاویر را بهعنوان «شات کامل بدن»، «عکس از بالاتنه»، «عکس بستهبندی»، «عکس محصول» و غیره طبقهبندی کردیم. به همین ترتیب، در مورد Style Review، اعتبار برای یک شات کامل بدن داده شد.
در مورد طبقهبندی تصویر، ما تا حد زیادی به یک مدل شبکه عصبی کانولوشنال (CNN) از پیش آموزشدیده وابسته بودیم، زیرا حجم عظیمی از تصاویر ورودی مورد نیاز برای آموزش مدل ما است. در حالی که تعریف و دستهبندی ویژگیهای معنیدار از تصاویر هر دو برای آموزش یک مدل حیاتی هستند، یک تصویر میتواند دارای تعداد نامحدودی از ویژگیها باشد. بنابراین، استفاده از مدل CNN بیشترین معنا را داشت، و ما مدل خود را با بیش از 10,000 مجموعه داده ImageNet از قبل آموزش دادیم، سپس از یادگیری انتقال استفاده کردیم. این بدان معناست که مدل ما می تواند بعداً با برچسب های تصویر ما به طور مؤثرتری آموزش داده شود.
مجموعه تصاویر با Amazon SageMaker Ground Truth
با این حال، یادگیری انتقال محدودیت های خاص خود را داشت، زیرا یک مدل باید به تازگی در لایه های بالاتر آموزش داده شود. این بدان معنی است که دائماً به تصاویر ورودی نیاز دارد. از سوی دیگر، این روش به خوبی عمل کرد و به تصاویر ورودی کمتری در هنگام آموزش روی کل لایه ها نیاز داشت. به راحتی ویژگیهای تصاویر این لایهها را شناسایی میکرد، زیرا قبلاً با حجم عظیمی از داده آموزش داده شده بود. در MUSINSA، کل زیرساخت ما روی AWS اجرا میشود و عکسهای آپلود شده توسط مشتری را در آن ذخیره میکنیم. سرویس ذخیره سازی ساده آمازون (S3). ما این تصاویر را بر اساس برچسب هایی که تعریف کردیم در پوشه های مختلف دسته بندی کردیم و به دلایل زیر از Amazon SageMaker Ground Truth استفاده کردیم:
- نتایج سازگارتر - در فرآیندهای دستی، یک اشتباه بازرس می تواند بدون هیچ مداخله ای به آموزش مدل داده شود. با SageMaker Ground Truth، میتوانیم چندین بازرس را بخواهیم که تصویر یکسان را بررسی کنند و مطمئن شوند که ورودیهای قابل اعتمادترین بازرس برای برچسبگذاری تصویر رتبهبندی بالاتری دارند، بنابراین به نتایج قابل اعتمادتری منجر میشود.
- کار دستی کمتر – برچسبگذاری خودکار دادههای SageMaker Ground Truth را میتوان با یک آستانه امتیاز اطمینان اعمال کرد، به طوری که هر تصویری که نمیتوان با اطمینان ماشینی برچسبگذاری کرد، برای برچسبگذاری انسانی ارسال میشود. این بهترین تعادل هزینه و دقت را تضمین می کند. اطلاعات بیشتر در دسترس است راهنمای توسعه دهنده Amazon SageMaker Ground Truth.
با استفاده از این روش، تعداد تصاویر دستهبندی شده دستی را تا 43 درصد کاهش دادیم. جدول زیر تعداد تصاویر پردازش شده در هر تکرار را پس از پذیرش Ground Truth نشان میدهد (توجه داشته باشید که دادههای آموزشی و اعتبارسنجی دادههای انباشتهشده هستند، در حالی که سایر معیارها بر اساس هر تکرار هستند). - به طور مستقیم نتایج را بارگیری کنید – هنگام ساخت مدلها در SageMaker، میتوانیم فایلهای مانیفست حاصل را که توسط SageMaker Ground Truth تولید میشود بارگیری کنیم و از آنها برای آموزش استفاده کنیم.
به طور خلاصه، طبقه بندی 10,000 تصویر به 22 بازرس پنج روزه نیاز داشت و هزینه آن 980 دلار بود.
توسعه مدل طبقه بندی تصاویر با Amazon SageMaker Studio
ما نیاز داشتیم که تصاویر مروری را بهعنوان عکسهای کامل بدن، عکسهای بالاتنه، عکسهای بسته، عکسهای محصول و محصولات در دستههای قابل اجرا طبقهبندی کنیم. برای دستیابی به اهداف خود، دو مدل را در نظر گرفتیم: مدل داخلی SageMaker مبتنی بر ResNet و MobileNet مبتنی بر Tensorflow. ما هر دو را روی مجموعه دادههای آزمایشی یکسانی آزمایش کردیم و متوجه شدیم که مدل داخلی SageMaker دقیقتر است، با امتیاز F0.98 1 در مقابل 0.88 از مدل TensorFlow. بنابراین، ما در مورد مدل داخلی SageMaker تصمیم گرفتیم.
La SageMaker Studioفرآیند آموزش مدل مبتنی بر به شرح زیر بود:
- تصاویر دارای برچسب را از SageMaker Ground Truth وارد کنید
- پیش پردازش تصاویر - تغییر اندازه و افزایش تصویر
- بارگیری کنید مدل داخلی آمازون SageMaker به عنوان یک تصویر داکر
- هیپرپارامترها را از طریق جستجوی شبکه تنظیم کنید
- یادگیری انتقالی را اعمال کنید
- تنظیم مجدد پارامترها بر اساس معیارهای آموزشی
- مدل را ذخیره کنید
SageMaker آموزش مدل را تنها با یک کلیک و بدون نگرانی در مورد تهیه و مدیریت ناوگانی از سرورها برای آموزش آسان کرد.
برای چرخش هایپرپارامتر، ما از جستجوی شبکه ای برای تعیین مقادیر بهینه هایپرپارامترها، به عنوان تعداد لایه های آموزشی استفاده کردیم.num_layers
) و چرخه های آموزشی (epochs
) در طول یادگیری انتقال بر دقت مدل طبقه بندی ما تأثیر گذاشته بود.
ارائه مدل با SageMaker Batch Transform و Apache Airflow
مدل طبقهبندی تصویری که ما ساختهایم به گردشهای کاری ML نیاز داشت تا مشخص شود آیا یک تصویر بازبینی واجد شرایط اعتبار است یا خیر. ما گردش کار را با چهار مرحله زیر ایجاد کردیم.
- تصاویر و ابرداده های بررسی را وارد کنید که باید به طور خودکار بازبینی شوند
- استنتاج برچسب های تصاویر (استنتاج)
- تعیین کنید که آیا اعتبار باید بر اساس برچسب های استنباط شده داده شود
- جدول نتایج را در پایگاه داده تولید ذخیره کنید
استفاده می کنیم جریان هوای آپاچی برای مدیریت گردش کار محصول داده این یک پلتفرم زمانبندی و نظارت بر گردش کار است که توسط Airbnb توسعه یافته و بهخاطر نمودارهای رابط کاربری وب ساده و بصری شناخته شده است. این برنامه از Amazon SageMaker پشتیبانی می کند، بنابراین به راحتی کدهای توسعه یافته با SageMaker Studio را به Apache Airflow منتقل می کند. دو راه برای اجرای کارهای SageMaker در Apache Airflow وجود دارد:
- با استفاده از اپراتورهای آمازون SageMaker
- با استفاده از اپراتورهای پایتون : یک تابع Python با Amazon SageMaker Python SDK در Apache Airflow بنویسید و آن را به عنوان یک پارامتر قابل فراخوانی وارد کنید
گزینه دوم به ما اجازه دهید پایتون موجود خود را حفظ کنیم کدهایی که قبلاً در SageMaker Studio داشتیم، و نیازی به یادگیری دستور زبان جدید برای اپراتورهای آمازون SageMaker نداشت.
با این حال، ما با آزمون و خطا مواجه شدیم، زیرا اولین بار بود که Apache Airflow را با Amazon SageMaker ادغام کردیم. درس هایی که آموختیم این بود:
- به روز رسانی Boto3: Amazon SageMaker Python SDK نسخه 2 به Boto3 1.14.12 یا جدیدتر نیاز دارد. بنابراین، ما باید نسخه Boto3 محیط موجود Apache Airflow را که در 1.13.4 بود، به روز کنیم.
- وراثت نقش و مجوز IAM: نقشهای AWS IAM مورد استفاده توسط Apache Airflow برای به ارث بردن نقشهایی که میتوانند Amazon SageMaker را اجرا کنند، مورد نیاز است.
- تنظیمات شبکه: برای اجرای کدهای SageMaker با Apache Airflow، نقاط انتهایی آن باید برای اتصالات شبکه پیکربندی شوند. نقاط پایانی زیر بر اساس مناطق AWS و خدماتی است که ما استفاده می کردیم. برای اطلاعات بیشتر، به وب سایت AWS.
api.sagemaker.ap-northeast-2.amazonaws.com
runtime.sagemaker.ap-northeast-2.amazonaws.com
aws.sagemaker.ap-northeast-2.studio
عواقب
با خودکارسازی فرآیندهای بازرسی تصویر بازبینی، نتایج تجاری زیر را به دست آوردیم:
- افزایش راندمان کاری – در حال حاضر، 76 درصد از تصاویر دستههایی که این سرویس در آنها اعمال شده است، به طور خودکار با دقت بازرسی 98 درصد بررسی میشوند.
- ثبات در اعطای اعتبار - اعتبارات بر اساس معیارهای روشن داده می شود. با این حال، مواردی وجود داشت که به دلیل تفاوت در قضاوت بازرسان، اعتبارات متفاوتی برای موارد مشابه داده می شد. مدل ML قوانین را به طور سازگارتر و سازگارتر در اعمال سیاست های اعتباری ما اعمال می کند.
- کاهش خطاهای انسانی - هر تعامل انسانی با خطر خطاهای انسانی همراه است. به عنوان مثال، مواردی داشتیم که معیارهای Style Review برای بررسی محصول استفاده می شد. مدل بازرسی خودکار ما به طور چشمگیری خطرات این خطاهای انسانی را کاهش داد.
ما مزایای زیر را به طور خاص با استفاده از Amazon SageMaker برای خودکار کردن فرآیند بازرسی تصویر به دست آوردیم:
- محیطی را ایجاد کردیم که در آن میتوانیم مدلها را از طریق فرآیندهای مدولار بسازیم و آزمایش کنیم - چیزی که ما در مورد Amazon SageMaker بیشتر دوست داشتیم این است که از ماژول ها تشکیل شده است. این به ما امکان می دهد خدمات را به راحتی و به سرعت بسازیم و آزمایش کنیم. بدیهی است که در ابتدا به مدتی برای یادگیری در مورد Amazon SageMaker نیاز داشتیم، اما پس از یادگیری، میتوانیم به راحتی آن را در عملیات خود به کار ببریم. ما معتقدیم که Amazon SageMaker برای مشاغلی که نیاز به توسعه سریع خدمات دارند، ایده آل است، مانند فروشگاه MUSINSA.
- داده های ورودی قابل اعتماد را با Amazon SageMaker Ground Truth جمع آوری کنید - جمع آوری داده های ورودی به طور فزاینده ای مهم تر از مدل سازی خود در حوزه ML است. با پیشرفت سریع ML، مدل های از پیش آموزش دیده می توانند بسیار بهتر از قبل و بدون تنظیم اضافی عمل کنند. AutoML همچنین نیاز به نوشتن کد برای مدل سازی ML را حذف کرده است. بنابراین، توانایی جمعآوری دادههای ورودی با کیفیت مهمتر از همیشه است و استفاده از خدمات برچسبگذاری مانند Amazon SageMaker Ground Truth حیاتی است.
نتیجه
در آینده، ما قصد داریم نه تنها ارائه مدل، بلکه آموزش مدل را نیز از طریق دسته های خودکار خودکار کنیم. ما میخواهیم مدل ما زمانی که برچسبها یا تصاویر جدید اضافه میشوند، به طور خودکار فراپارامترهای بهینه را شناسایی کند. علاوه بر این، ما به بهبود عملکرد مدل خود، یعنی فراخوانی و دقت، بر اساس روش آموزش خودکار که قبلا ذکر شد، ادامه خواهیم داد. ما پوشش مدل خود را افزایش خواهیم داد تا بتواند تصاویر مرور بیشتری را بررسی کند، هزینه های بیشتری را کاهش دهد و دقت های بالاتری را به دست آورد که همگی منجر به رضایت بیشتر مشتری می شود.
برای اطلاعات بیشتر در مورد نحوه استفاده آمازون SageMaker برای حل مشکلات کسب و کار خود با استفاده از ML، به آدرس مراجعه کنید صفحه وب محصول. و مثل همیشه با جدیدترین ها به روز باشید اخبار یادگیری ماشین AWS اینجا.
مطالب و نظرات این پست متعلق به نویسنده شخص ثالث است و AWS مسئولیتی در قبال محتوا یا صحت این پست ندارد.
درباره نویسنده
پارک جیهی یک دانشمند داده در MUSINSA است که مسئول تحلیل و مدل سازی داده ها است. او عاشق کار با داده های همه جا حاضر مانند تجارت الکترونیک است. نقش اصلی او مدل سازی داده است، اما او به مهندسی داده نیز علاقه دارد.
سونگمین کیم Sr. Solutions Architect در خدمات وب آمازون است. او با استارتآپها برای معمار، طراحی، خودکارسازی و ساخت راهحلهایی بر روی AWS برای نیازهای تجاری آنها کار میکند. او در AI/ML و Analytics تخصص دارد.
- '
- "
- 000
- 100
- 107
- 98
- اضافی
- Airbnb
- معرفی
- آمازون
- آمازون SageMaker
- Amazon SageMaker Ground Truth
- آمازون خدمات وب
- تحلیل
- علم تجزیه و تحلیل
- آپاچی
- محدوده
- خودکار
- AWS
- بهترین
- بدن
- مارک های
- ساختن
- بنا
- کسب و کار
- کسب و کار
- موارد
- به چالش
- طبقه بندی
- CNN
- رمز
- جمع آوری
- اعتماد به نفس
- اتصالات
- رضایت
- محتوا
- ادامه دادن
- تبدیل
- شبکه عصبی حلقوی
- هزینه
- اعتبار
- اعتبار
- تجربه مشتری
- رضایت مشتری
- مشتریان
- داده ها
- تحلیل داده ها
- دانشمند داده
- جمعیت
- طرح
- جزئیات
- توسعه
- توسعه دهنده
- پروژه
- کارگر بارانداز
- تجارت الکترونیک
- مهندسی
- محیط
- و غیره
- تجربه
- روش
- امکانات
- تغذیه
- نام خانوادگی
- بار اول
- ناوگان
- به جلو
- کامل
- تابع
- دادن
- اهداف
- خوب
- توری
- مهمان
- پست مهمان
- دستورالعمل ها
- اینجا کلیک نمایید
- چگونه
- چگونه
- HTTPS
- انسان
- IAM
- شناسایی
- تصویر
- IMAGEnet
- بهبود
- از جمله
- افزایش
- اطلاعات
- شالوده
- IT
- شغل ها
- کشور کره
- برچسب
- برچسب ها
- رهبری
- برجسته
- یاد گرفتن
- آموخته
- یادگیری
- بار
- فراگیری ماشین
- متریک
- ML
- مدل
- مدل سازی
- پیمانهای
- نظارت بر
- از جمله
- شبکه
- عصبی
- شبکه های عصبی
- اخبار
- آنلاین
- عملیات
- دیدگاه ها
- گزینه
- دیگر
- کارایی
- سکو
- سیستم عامل
- سیاست
- دقت
- محصول
- تولید
- محصولات
- خرید
- پــایتــون
- کیفیت
- دلایل
- كاهش دادن
- نتایج
- این فایل نقد می نویسید:
- بررسی
- خطر
- قوانین
- دویدن
- حکیم ساز
- sdk
- جستجو
- حس
- خدمات
- خدمت
- ساده
- So
- مزایا
- حل
- جنوب
- کره جنوبی
- تخصص دارد
- نوپا
- ایالات
- ماندن
- ذخیره سازی
- opbevare
- ارسال
- پشتیبانی از
- نوجوانان
- جریان تنسور
- آزمون
- زمان
- ابزار
- ترافیک
- آموزش
- روند
- محاکمه
- ui
- بروزرسانی
- us
- حجم
- وب
- خدمات وب
- WHO
- کلمات
- مهاجرت کاری
- گردش کار
- با این نسخهها کار