هذا منشور ضيف من Jihye Park ، عالم بيانات في MUSINSA.
موسيقى هي واحدة من أكبر منصات الموضة عبر الإنترنت في كوريا الجنوبية ، وتخدم 8.4 مليون عميل وتبيع 6,000 علامة تجارية للأزياء. يصل عدد زيارات المستخدمين الشهرية لدينا إلى 4 ملايين ، ويتألف أكثر من 90٪ من التركيبة السكانية لدينا من المراهقين والشباب الذين لديهم حساسية لاتجاهات الموضة. MUSINSA هي منصة رائدة في تحديد الاتجاه في البلاد ، وهي رائدة بكميات هائلة من البيانات.
يشارك فريق حلول البيانات في MUSINSA في كل ما يتعلق بالبيانات التي يتم جمعها من متجر MUSINSA. نقوم بتطوير المكدس الكامل من جمع السجلات إلى نمذجة البيانات وخدمة النماذج. نقوم بتطوير العديد من المنتجات المستندة إلى البيانات ، بما في ذلك خدمة توصيات المنتج المباشر على الصفحة الرئيسية لتطبيقنا وخدمة Keyword Highlighting Service التي تكتشف وتميز كلمات مثل "الحجم" أو "مستوى الرضا" من المراجعات النصية.
التحديات في أتمتة عملية فحص صورة المراجعة
تعد جودة وكمية مراجعات العملاء أمرًا بالغ الأهمية لشركات التجارة الإلكترونية ، حيث يتخذ العملاء قرارات الشراء دون رؤية المنتجات شخصيًا. نعطي أرصدة لأولئك الذين يكتبون مراجعات الصور على المنتجات التي قاموا بشرائها (أي ، مراجعات مع صور للمنتجات أو صورهم وهم يرتدون / يستخدمون المنتجات) لتحسين تجربة العملاء وزيادة معدل تحويل الشراء. لتحديد ما إذا كانت الصور المقدمة تفي بمعاييرنا الخاصة بالاعتمادات ، يتم فحص جميع الصور بشكل فردي من قبل البشر. على سبيل المثال ، تنص معاييرنا على أن "مراجعة النمط" يجب أن تحتوي على صور تظهر الجسم الكامل لشخص يرتدي / يستخدم المنتج بينما يجب أن توفر "مراجعة المنتج" لقطة كاملة للمنتج. تعرض الصور التالية أمثلة على "مراجعة المنتج" و "مراجعة النمط". تم منح موافقة القائمين بالتحميل على استخدام الصور.
يتم تحميل أكثر من 20,000 صورة يوميًا إلى منصة MUSINSA Store التي تتطلب الفحص. تصنف عملية الاستقصاء الصور على أنها "حزمة" أو "منتج" أو "كاملة الطول" أو "نصف طول". تتم عملية فحص الصور يدويًا تمامًا ، لذا فقد كانت تستغرق وقتًا طويلاً للغاية وغالباً ما يتم إجراء التصنيفات بشكل مختلف بواسطة أفراد مختلفين ، حتى مع الإرشادات. في مواجهة هذا التحدي ، اعتدنا الأمازون SageMaker لأتمتة هذه المهمة.
Amazon SageMaker عبارة عن خدمة مُدارة بالكامل لبناء نماذج التعلم الآلي (ML) والتدريب عليها ونشرها لأي حالة استخدام مع البنية التحتية المُدارة بالكامل والأدوات وسير العمل. إنها تتيح لنا تنفيذ خدمة فحص الصور الآلي بسرعة مع نتائج جيدة.
سوف ندخل في التفاصيل حول كيفية تعاملنا مع مشاكلنا باستخدام نماذج ML واستخدام Amazon SageMaker على طول الطريق.
أتمتة عملية فحص صورة المراجعة
كانت الخطوة الأولى نحو أتمتة عملية فحص مراجعة الصور هي تسمية الصور يدويًا ، وبالتالي مطابقتها مع الفئات ومعايير الاستقصاء المناسبة. على سبيل المثال ، صنفنا الصور على أنها "لقطة لكامل الجسم" ، أو "لقطة للجزء العلوي من الجسم" ، أو "لقطة تغليف" ، أو "لقطة منتج" ، إلخ. وبالمثل ، في حالة مراجعة الأسلوب ، تم منح اعتمادات للحصول على لقطة لكامل الجسم.
بالنسبة لتصنيف الصور ، فقد اعتمدنا إلى حد كبير على نموذج شبكة عصبية تلافيفية (CNN) تم تدريبه مسبقًا نظرًا للحجم الهائل لصور الإدخال المطلوبة لتدريب نموذجنا. في حين أن تحديد الميزات ذات المعنى من الصور وتصنيفها أمر بالغ الأهمية لتدريب النموذج ، يمكن أن تحتوي الصورة على عدد غير محدود من الميزات. لذلك ، كان استخدام نموذج CNN أكثر منطقية ، وقمنا بتدريب نموذجنا مسبقًا باستخدام أكثر من 10,000 مجموعة بيانات ImageNet ، ثم استخدمنا التعلم بالنقل. هذا يعني أنه يمكن تدريب نموذجنا بشكل أكثر فاعلية باستخدام ملصقات الصور الخاصة بنا لاحقًا.
جمع الصور مع Amazon SageMaker Ground Truth
ومع ذلك ، فإن التعلم الانتقالي له حدوده الخاصة ، لأنه يجب تدريب النموذج حديثًا على طبقات أعلى. هذا يعني أنه يتطلب باستمرار إدخال الصور. من ناحية أخرى ، كان أداء هذه الطريقة جيدًا وتطلب عددًا أقل من الصور المدخلة عند التدريب على طبقات كاملة. تم التعرف بسهولة على الميزات من الصور من هذه الطبقات لأنه تم تدريبها بالفعل بكمية هائلة من البيانات. في MUSINSA ، تعمل بنيتنا التحتية بالكامل على AWS ، ونقوم بتخزين الصور التي تم تحميلها بواسطة العميل في خدمة التخزين البسيطة من أمازون (S3). قمنا بتصنيف هذه الصور في مجلدات مختلفة بناءً على الملصقات التي حددناها ، واستخدمنا Amazon SageMaker Ground Truth للأسباب التالية:
- نتائج أكثر اتساقًا - في العمليات اليدوية ، يمكن إدخال خطأ لمفتش واحد في تدريب النموذج دون أي تدخل. مع SageMaker Ground Truth ، يمكن أن يكون لدينا العديد من المفتشين لمراجعة نفس الصورة والتأكد من أن المدخلات من المفتشين الأكثر جدارة بالثقة تم تصنيفها على أنها أعلى في تصنيف الصور ، مما يؤدي إلى نتائج أكثر موثوقية.
- عمل يدوي أقل - يمكن تطبيق ملصقات البيانات المؤتمتة من SageMaker Ground Truth مع حد درجة الثقة بحيث يتم إرسال أي صور لا يمكن تصنيفها بالآلة إلى الملصقات البشرية. هذا يضمن أفضل توازن بين التكلفة والدقة. يتوفر مزيد من المعلومات في دليل مطور Amazon SageMaker Ground Truth.
باستخدام هذه الطريقة ، قللنا عدد الصور المصنفة يدويًا بنسبة 43٪. يوضح الجدول التالي عدد الصور التي تمت معالجتها لكل تكرار بعد أن اعتمدنا الحقيقة الأرضية (لاحظ أن بيانات التدريب والتحقق من الصحة هي بيانات متراكمة ، بينما المقاييس الأخرى على أساس التكرار). - النتائج مباشرة - عند إنشاء نماذج في SageMaker ، يمكننا تحميل ملفات البيان الناتجة التي تم إنشاؤها بواسطة SageMaker Ground Truth واستخدامها للتدريب.
باختصار ، تصنيف 10,000 صورة يتطلب 22 مفتشًا لمدة خمسة أيام وتكلفة 980 دولارًا.
تطوير نموذج تصنيف الصور باستخدام Amazon SageMaker Studio
احتجنا إلى تصنيف صور المراجعة على أنها لقطات لكامل الجسم ، ولقطات للجزء العلوي من الجسم ، ولقطات مجمعة ، ولقطات منتج ، ومنتجات في فئات قابلة للتطبيق. لتحقيق أهدافنا ، أخذنا في الاعتبار نموذجين: نموذج SageMaker المدمج المستند إلى ResNet و MobileNet المستندة إلى Tensorflow. اختبرنا كلاهما على نفس مجموعات بيانات الاختبار ووجدنا أن نموذج SageMaker المدمج كان أكثر دقة ، حيث حصل على 0.98 F1 مقابل 0.88 من نموذج TensorFlow. لذلك ، قررنا نموذج SageMaker المدمج.
• استوديو SageMakerكانت عملية التدريب النموذجية على النحو التالي:
- استيراد الصور المعنونة من SageMaker Ground Truth
- صور ما قبل المعالجة - تغيير حجم الصورة وزيادتها
- حمل ال نموذج Amazon SageMaker المدمج كصورة عامل ميناء
- ضبط المعامِلات الفائقة من خلال بحث الشبكة
- تطبيق نقل التعلم
- أعد ضبط المعلمات بناءً على مقاييس التدريب
- احفظ النموذج
جعلت SageMaker من السهل تدريب النموذج بنقرة واحدة فقط ودون القلق بشأن توفير وإدارة أسطول من الخوادم للتدريب.
لتحويل المعلمات الفائقة ، استخدمنا بحث الشبكة لتحديد القيم المثلى للمعلمات الفائقة ، مثل عدد طبقات التدريب (num_layers
) ودورات التدريب (epochs
) أثناء تعلم النقل أثرت على دقة نموذج التصنيف لدينا.
نموذج يخدم مع SageMaker Batch Transform و Apache Airflow
نموذج تصنيف الصور الذي أنشأناه يتطلب تدفقات عمل ML لتحديد ما إذا كانت صورة المراجعة مؤهلة للحصول على أرصدة. أنشأنا تدفقات العمل من خلال الخطوات الأربع التالية.
- استيراد صور المراجعة والبيانات الوصفية التي يجب مراجعتها تلقائيًا
- استنتاج تسميات الصور (الاستدلال)
- حدد ما إذا كان يجب منح الأرصدة بناءً على الملصقات المستنتجة
- قم بتخزين جدول النتائج في قاعدة بيانات الإنتاج
نحن نستخدم أباتشي تدفق الهواء لإدارة سير عمل منتج البيانات. إنها منصة جدولة سير العمل والمراقبة التي طورتها Airbnb معروفة برسوم بيانية بسيطة وسهلة الاستخدام لواجهة مستخدم الويب. وهو يدعم Amazon SageMaker ، لذا فهو يرحل بسهولة الشفرة التي تم تطويرها باستخدام SageMaker Studio إلى Apache Airflow. هناك طريقتان لتشغيل وظائف SageMaker على Apache Airflow:
- استخدام عوامل تشغيل Amazon SageMaker
- باستخدام مشغلي بايثون : اكتب دالة Python باستخدام Amazon SageMaker Python SDK على Apache Airflow واستوردها كمعامل قابل للاستدعاء
الخيار الثاني دعونا الحفاظ على بايثون الموجودة لدينا الرموز التي كانت لدينا بالفعل في SageMaker Studio ، ولم يتطلب منا تعلم قواعد نحوية جديدة لمشغلي Amazon SageMaker.
ومع ذلك ، فقد مررنا ببعض التجارب والخطأ ، حيث كانت هذه هي المرة الأولى التي ندمج فيها Apache Airflow مع Amazon SageMaker. الدروس التي تعلمناها هي:
- تحديث Boto3: تتطلب Amazon SageMaker Python SDK الإصدار 2 Boto3 1.14.12 أو أحدث. لذلك ، احتجنا إلى تحديث إصدار Boto3 من بيئة Apache Airflow الحالية لدينا ، والتي كانت عند 1.13.4.
- IAM دور وإذن الميراث: أدوار AWS IAM التي يستخدمها Apache Airflow لازمة لتوريث الأدوار التي يمكن أن تقوم بتشغيل Amazon SageMaker.
- تكوين شبكة: لتشغيل أكواد SageMaker مع Apache Airflow ، يجب تكوين نقاط النهاية الخاصة به لاتصالات الشبكة. استندت نقاط النهاية التالية إلى مناطق AWS والخدمات التي كنا نستخدمها. لمزيد من المعلومات ، راجع موقع أوس.
api.sagemaker.ap-northeast-2.amazonaws.com
runtime.sagemaker.ap-northeast-2.amazonaws.com
aws.sagemaker.ap-northeast-2.studio
نتائج
من خلال أتمتة عمليات فحص صور المراجعة ، حصلنا على نتائج الأعمال التالية:
- زيادة كفاءة العمل - حاليًا ، 76٪ من صور الفئات التي تم تطبيق الخدمة عليها يتم فحصها تلقائيًا بدقة استقصاء تبلغ 98٪.
- الاتساق في منح الاعتمادات - يتم منح الاعتمادات على أساس معايير واضحة. ومع ذلك ، كانت هناك حالات تم فيها منح ائتمانات بشكل مختلف لقضايا مماثلة بسبب الاختلافات في أحكام المفتشين. يطبق نموذج ML القواعد بشكل أكثر اتساقًا واتساقًا أعلى في تطبيق سياسات الائتمان الخاصة بنا.
- تقليل الأخطاء البشرية - كل مشاركة بشرية تنطوي على مخاطر أخطاء بشرية. على سبيل المثال ، لدينا حالات تم فيها استخدام معايير مراجعة النمط لمراجعات المنتج. قلل نموذج الفحص التلقائي لدينا بشكل كبير من مخاطر هذه الأخطاء البشرية.
اكتسبنا الفوائد التالية تحديدًا باستخدام Amazon SageMaker لأتمتة عملية فحص الصور:
- إنشاء بيئة يمكننا من خلالها بناء النماذج واختبارها من خلال العمليات المعيارية - أكثر ما أحببناه في Amazon SageMaker هو أنه يتكون من وحدات. يتيح لنا ذلك إنشاء الخدمات واختبارها بسهولة وسرعة. من الواضح أننا كنا بحاجة إلى بعض الوقت للتعرف على Amazon SageMaker في البداية ، ولكن بمجرد التعلم ، يمكننا بسهولة تطبيقه في عملياتنا. نعتقد أن Amazon SageMaker مثالي للشركات التي تتطلب تطورات سريعة في الخدمة ، كما هو الحال في MUSINSA Store.
- اجمع بيانات الإدخال الموثوقة باستخدام Amazon SageMaker Ground Truth - أصبح جمع بيانات الإدخال أكثر أهمية بشكل متزايد من النمذجة نفسها في مجال ML. مع التقدم السريع في ML ، يمكن للنماذج المدربة مسبقًا أن تؤدي أداءً أفضل بكثير من ذي قبل ، وبدون ضبط إضافي. أزال AutoML أيضًا الحاجة إلى كتابة أكواد لنمذجة ML. لذلك ، تعد القدرة على جمع بيانات الإدخال عالية الجودة أكثر أهمية من أي وقت مضى ، واستخدام خدمات وضع العلامات مثل Amazon SageMaker Ground Truth أمر بالغ الأهمية.
وفي الختام
من الآن فصاعدًا ، نخطط لأتمتة ليس فقط تقديم النماذج ولكن أيضًا تدريب النموذج من خلال الدُفعات التلقائية. نريد أن يحدد نموذجنا المعلمات التشعبية المثلى تلقائيًا عند إضافة ملصقات أو صور جديدة. بالإضافة إلى ذلك ، سنواصل تحسين أداء نموذجنا ، أي الاستدعاءات والدقة ، بناءً على طريقة التدريب الآلي المذكورة سابقًا. سنعمل على زيادة تغطية نموذجنا حتى يتمكن من فحص المزيد من صور المراجعة ، وتقليل المزيد من التكاليف ، وتحقيق دقة أعلى ، الأمر الذي سيؤدي إلى زيادة رضا العملاء.
لمزيد من المعلومات حول كيفية الاستخدام الأمازون SageMaker لحل مشاكل عملك باستخدام ML ، قم بزيارة صفحة ويب المنتج. وكالعادة ، ابق على اطلاع على آخر المستجدات AWS Machine Learning News هنا.
المحتوى والآراء الواردة في هذا المنشور تخص مؤلف الطرف الثالث ولا تتحمل AWS مسؤولية محتوى هذا المنشور أو دقته.
حول المؤلف
حديقة جيهي هو عالم بيانات في MUSINSA وهو المسؤول عن تحليل البيانات والنمذجة. تحب العمل مع البيانات الموجودة في كل مكان مثل التجارة الإلكترونية. يتمثل دورها الرئيسي في نمذجة البيانات ولكن لديها اهتمامات في هندسة البيانات أيضًا.
سونغمين كيم مهندس حلول في Amazon Web Services. إنه يعمل مع الشركات الناشئة لتصميم حلول على AWS وتصميمها وأتمتتها وبناءها لتلبية احتياجات أعمالهم. وهو متخصص في الذكاء الاصطناعي / التعلم الآلي والتحليلات.
- '
- "
- 000
- 100
- 107
- 98
- إضافي
- Airbnb
- الكل
- أمازون
- الأمازون SageMaker
- الحقيقة الأمازون SageMaker الأرض
- أمازون ويب سيرفيسز
- تحليل
- تحليلات
- أباتشي
- المنطقة
- الآلي
- AWS
- أفضل
- الجسدي
- العلامات التجارية
- نساعدك في بناء
- ابني
- الأعمال
- الأعمال
- الحالات
- تحدى
- تصنيف
- سي ان ان
- الكود
- جمع
- الثقة
- التواصل
- موافقة
- محتوى
- استمر
- تحويل
- شبكة عصبية تلافيفية
- التكاليف
- ائتمان
- الشكر والتقدير
- تجربة العملاء
- رضا العملاء
- العملاء
- البيانات
- تحليل البيانات
- عالم البيانات
- التركيبة السكانية
- تصميم
- التفاصيل
- تطوير
- المطور
- التطوير التجاري
- عامل في حوض السفن
- التجارة الإلكترونية
- الهندسة
- البيئة
- إلخ
- الخبره في مجال الغطس
- الأزياء
- المميزات
- بنك الاحتياطي الفيدرالي
- الاسم الأول
- لأول مرة
- سريع
- إلى الأمام
- بالإضافة إلى
- وظيفة
- إعطاء
- الأهداف
- خير
- شبكة
- ضيف
- زائر رد
- المبادئ التوجيهية
- هنا
- كيفية
- كيفية
- HTTPS
- البشر
- IAM
- تحديد
- صورة
- IMAGEnet
- تحسين
- بما فيه
- القيمة الاسمية
- معلومات
- البنية التحتية
- IT
- المشــاريــع
- كوريا
- وصفها
- ملصقات
- قيادة
- قيادة
- تعلم
- تعلم
- تعلم
- تحميل
- آلة التعلم
- المقاييس
- ML
- نموذج
- تصميم
- وحدات
- مراقبة
- أي
- شبكة
- عصبي
- الشبكة العصبية
- أخبار
- online
- عمليات
- آراء
- خيار
- أخرى
- أداء
- المنصة
- منصات التداول
- سياسات الخصوصية والبيع
- دقة
- منتج
- الإنتــاج
- المنتجات
- شراء
- بايثون
- جودة
- الأسباب
- تخفيض
- النتائج
- مراجعة
- التقييمات
- المخاطرة
- القواعد
- يجري
- sagemaker
- الإستراحة
- بحث
- إحساس
- خدمات
- خدمة
- الاشارات
- So
- الحلول
- حل
- جنوب
- كوريا الجنوبية
- تتخصص
- البدء
- المحافظة
- إقامة
- تخزين
- متجر
- المقدمة
- الدعم
- مراهقون
- tensorflow
- تجربه بالعربي
- الوقت
- أدوات
- حركة المرور
- قادة الإيمان
- جديد الموضة
- محاكمة
- ui
- تحديث
- us
- حجم
- الويب
- خدمات ويب
- من الذى
- كلمات
- للعمل
- سير العمل
- أعمال