5 أسباب لماذا تحتاج إلى بيانات تركيبية

أعاد نشره أفلاطون

المتابعون: 0

5 أسباب لماذا تحتاج إلى بيانات تركيبية
تم إنشاء البيانات التركيبية من كزيب

لتدريب نموذج التعلم الآلي ، أنت بحاجة إلى البيانات. لا تعد مهام علوم البيانات عادةً مسابقة Kaggle حيث يكون لديك مجموعة بيانات منسقة كبيرة لطيفة تأتي مُصنَّفة مسبقًا. في بعض الأحيان ، يتعين عليك جمع بياناتك وتنظيمها وتنظيفها. قد تكون عملية جمع البيانات وتصنيفها في العالم الحقيقي مستهلكة للوقت ومرهقة ومكلفة وغير دقيقة وخطيرة في بعض الأحيان. علاوة على ذلك ، في نهاية هذه العملية ، يمكن أن ينتهي بك الأمر مع البيانات التي واجهتها في العالم الحقيقي وليس بالضرورة أن تكون البيانات التي تريدها من حيث الجودة والتنوع (على سبيل المثال ، عدم توازن الفئة) والكمية. فيما يلي المشكلات الشائعة التي قد تواجهها عند العمل باستخدام البيانات الحقيقية:

جمع البيانات الحقيقية ووضع العلامات غير قابلة للتطوير
يمكن أن يكون تصنيف البيانات الحقيقية يدويًا أمرًا مستحيلًا في بعض الأحيان
البيانات الحقيقية لها مشكلات تتعلق بالخصوصية والأمان
البيانات الحقيقية غير قابلة للبرمجة
النموذج الذي يتم تدريبه حصريًا على البيانات الحقيقية لا يعمل بشكل كافٍ (على سبيل المثال ، سرعة التطوير البطيئة)

لحسن الحظ ، يمكن حل مشكلات مثل هذه بالبيانات التركيبية. قد تتساءل ، ما هي البيانات التركيبية؟ يمكن تعريف البيانات التركيبية على أنها بيانات تم إنشاؤها بشكل مصطنع والتي يتم إنشاؤها عادةً باستخدام خوارزميات تحاكي عمليات العالم الحقيقي ، بدءًا من سلوك مستخدمي الطريق الآخرين وصولاً إلى سلوك الضوء أثناء تفاعله مع الأسطح. يتطرق هذا المنشور إلى قيود بيانات العالم الحقيقي ، وكيف يمكن أن تساعد البيانات التركيبية في التغلب على هذه المشكلات وتحسين أداء النموذج.

بالنسبة لمجموعات البيانات الصغيرة ، من الممكن عادة جمع البيانات وتسميتها يدويًا ؛ ومع ذلك ، تتطلب العديد من مهام التعلم الآلي المعقدة مجموعات بيانات ضخمة للتدريب. على سبيل المثال ، تحتاج النماذج المدربة على تطبيقات المركبات المستقلة إلى كميات كبيرة من البيانات التي يتم جمعها من أجهزة الاستشعار المتصلة بالسيارات أو الطائرات بدون طيار. عملية جمع البيانات بطيئة ويمكن أن تستغرق شهورًا أو حتى سنوات. بمجرد جمع البيانات الأولية ، يجب بعد ذلك أن يقوم البشر بتعليقها يدويًا ، وهو أمر مكلف أيضًا ويستغرق وقتًا طويلاً. علاوة على ذلك ، ليس هناك ما يضمن أن البيانات المصنفة التي تعود ستكون مفيدة كبيانات تدريب ، لأنها قد لا تحتوي على أمثلة توضح الفجوات المعرفية الحالية للنموذج.

[محتوى مضمن] [محتوى مضمن]

غالبًا ما تتضمن تسمية هذه البيانات رسمًا يدويًا للملصقات فوق بيانات المستشعر. هذا مكلف للغاية لأن فرق ML ذات الأجور المرتفعة غالبًا ما تقضي جزءًا كبيرًا من وقتها في التأكد من صحة الملصقات وإرسال الأخطاء مرة أخرى إلى المصممين. تتمثل إحدى نقاط القوة الرئيسية للبيانات التركيبية في أنه يمكنك إنشاء أكبر قدر ممكن من البيانات المصنفة تمامًا كما تريد. كل ما تحتاجه هو وسيلة لإنشاء بيانات تركيبية عالية الجودة.

برمجيات مفتوحة المصدر لتوليد بيانات تركيبية: كزيب (مقاطع فيديو متعددة الكائنات مع أقنعة التجزئة وخرائط العمق والتدفق البصري) و SDV (البيانات الجدولية والعلائقية والمتسلسلة الزمنية).

تتضمن بعض الشركات (من بين العديد من الشركات) التي تبيع منتجات أو تنشئ منصات يمكنها إنشاء بيانات تركيبية ما يلي: جريتيل (مجموعات البيانات التركيبية التي تضمن خصوصية البيانات الحقيقية) ، NVIDIA (omniverse) ، و المجال الموازي (المركبات ذاتية القيادة). للمزيد من، راجع قائمة 2022 لشركات البيانات التركيبية.

5 أسباب لماذا تحتاج إلى بيانات تركيبية
صورة من المجال الموازي

هناك بعض البيانات التي لا يستطيع البشر تفسيرها وتصنيفها بشكل كامل. فيما يلي بعض حالات الاستخدام التي تكون فيها البيانات التركيبية هي الخيار الوحيد:

تقدير دقيق للعمق و تدفق البصر من صور فردية
تطبيقات القيادة الذاتية التي تستخدم بيانات الرادار غير المرئية للعين البشرية
إنشاء مزيفة عميقة يمكن استخدامها لاختبار أنظمة التعرف على الوجوه

5 أسباب لماذا تحتاج إلى بيانات تركيبية
الصورة عن طريق مايكل جالارنيك

تعد البيانات التركيبية مفيدة للغاية للتطبيقات في المجالات التي لا يمكنك فيها الحصول على بيانات حقيقية بسهولة. يتضمن ذلك بعض أنواع بيانات حوادث السيارات ومعظم أنواع البيانات الصحية التي لها قيود الخصوصية (على سبيل المثال ، السجلات الصحية الإلكترونية). في السنوات الأخيرة ، اهتم الباحثون في مجال الرعاية الصحية بالتنبؤ بالرجفان الأذيني (عدم انتظام ضربات القلب) باستخدام إشارات ECG و PPG. لا يُعد تطوير جهاز الكشف عن عدم انتظام ضربات القلب أمرًا صعبًا فقط نظرًا لأن التعليقات التوضيحية لهذه الإشارات مملة ومكلفة ، ولكن أيضًا بسبب قيود الخصوصية. هذا هو أحد أسباب وجود البحث في محاكاة هذه الإشارات.

من المهم التأكيد على أن جمع البيانات الحقيقية لا يستغرق وقتًا وطاقة فحسب ، بل يمكن أن يكون خطيرًا بالفعل. تتمثل إحدى المشكلات الأساسية في التطبيقات الروبوتية مثل السيارات ذاتية القيادة في أنها تطبيقات مادية للتعلم الآلي. لا يمكنك نشر نموذج غير آمن في العالم الحقيقي ولديك عطل بسبب نقص البيانات ذات الصلة. يمكن أن تساعد زيادة مجموعة البيانات بالبيانات التركيبية على تجنب هذه المشكلات.

فيما يلي بعض الشركات التي تستخدم البيانات التركيبية لتحسين أمان التطبيقات: تويوتا, Waymoو رحلة بحرية.

5 أسباب لماذا تحتاج إلى بيانات تركيبية
صورة من المجال الموازي

صورة اصطناعية لطفل محبوس على دراجة تخرج من خلف حافلة مدرسية وركوب الدراجة عبر الشارع في بيئة شبيهة بضواحي كاليفورنيا.

غالبًا ما تتعامل تطبيقات المركبات المستقلة مع الأحداث "غير الشائعة" نسبيًا (بالنسبة إلى ظروف القيادة العادية) مثل المشاة في الليل أو ركوب الدراجات في منتصف الطريق. غالبًا ما تحتاج النماذج إلى مئات الآلاف أو حتى ملايين الأمثلة لتعلم سيناريو. تتمثل إحدى المشكلات الرئيسية في أن بيانات العالم الحقيقي التي تم جمعها قد لا تكون ما تبحث عنه من حيث الجودة والتنوع (على سبيل المثال ، عدم توازن الطبقة ، وظروف الطقس ، والموقع) ، والكمية. مشكلة أخرى هي أنه بالنسبة للسيارات والروبوتات ذاتية القيادة ، فأنت لا تعرف دائمًا البيانات التي تحتاجها بخلاف مهام التعلم الآلي التقليدية مع مجموعات البيانات الثابتة والمعايير الثابتة. في حين أن بعض تقنيات زيادة البيانات التي تغير الصور بشكل منهجي أو عشوائي مفيدة، يمكن لهذه التقنيات يعرضون مشاكلهم الخاصة.

هذا هو المكان الذي تأتي فيه البيانات التركيبية. تسمح لك واجهات برمجة التطبيقات لتوليد البيانات التركيبية بتصميم مجموعات البيانات. يمكن أن توفر لك واجهات برمجة التطبيقات هذه الكثير من المال حيث أن بناء الروبوتات وجمع البيانات في العالم الحقيقي مكلف للغاية. من الأفضل والأسرع بكثير محاولة إنشاء البيانات ومعرفة المبادئ الهندسية باستخدام توليد مجموعة البيانات التركيبية.

فيما يلي أمثلة توضح كيف تساعد البيانات التركيبية القابلة للبرمجة النماذج على التعلم: منع المعاملات الاحتيالية (أمريكان إكسبريس), اكتشاف أفضل لراكبي الدراجات (المجال المتوازي)و تحليل ومراجعة الجراحة (Hutom.io).

5 أسباب لماذا تحتاج إلى بيانات تركيبية
مراحل دورة تطوير النموذج | صورة من جول س. دامجي

في الصناعة ، هناك الكثير من العوامل التي تؤثر على جدوى / أداء مشروع التعلم الآلي في كل من التطوير والإنتاج (على سبيل المثال ، الحصول على البيانات ، والشرح ، والتدريب على النموذج ، والقياس ، والنشر ، والمراقبة ، وإعادة تدريب النموذج ، وسرعة التطوير). حديثاً، شارك 18 من مهندسي التعلم الآلي في دراسة مقابلة كان هدفها هو فهم ممارسات وتحديات MLOps الشائعة عبر المؤسسات والتطبيقات (على سبيل المثال ، المركبات المستقلة ، وأجهزة الكمبيوتر ، والبيع بالتجزئة ، والإعلانات ، وأنظمة التوصية ، وما إلى ذلك). كانت إحدى استنتاجات الدراسة هي أهمية سرعة التطوير والتي يمكن تعريفها تقريبًا على أنها القدرة على إنشاء نماذج أولية بسرعة وتكرارها على الأفكار.

أحد العوامل التي تؤثر على سرعة التطوير هو الحاجة إلى الحصول على بيانات للقيام بالتدريب والتقييم الأولي للنموذج بالإضافة إلى إعادة تدريب النموذج بشكل متكرر بسبب انحراف أداء النموذج بمرور الوقت بسبب انحراف البيانات أو انحراف المفهوم أو حتى انحراف تقديم التدريب.

5 أسباب لماذا تحتاج إلى بيانات تركيبية
صورة من من الواضح أن منظمة العفو الدولية

ذكرت الدراسة أيضًا أن هذه الحاجة دفعت بعض المنظمات إلى تشكيل فريق لتصنيف البيانات الحية بشكل متكرر. هذا مكلف ويستغرق وقتًا طويلاً ويحد من قدرة المؤسسة على إعادة تدريب النماذج بشكل متكرر.

5 أسباب لماذا تحتاج إلى بيانات تركيبية
صورة من جريتيل

لاحظ أن هذا الرسم البياني لا يغطي كيف يمكن أيضًا استخدام البيانات التركيبية لأشياء مثل اختبار MLOps في التوصية.

يمكن استخدام البيانات التركيبية مع بيانات العالم الحقيقي في دورة حياة التعلم الآلي (في الصورة أعلاه) لمساعدة المؤسسات في الحفاظ على أداء نماذجها لفترة أطول.

أصبح توليد البيانات الاصطناعية أكثر شيوعًا في سير عمل التعلم الآلي. في الحقيقة، غارتنر يتوقع أنه بحلول عام 2030 ، سيتم استخدام البيانات التركيبية أكثر بكثير من بيانات العالم الحقيقي لتدريب نماذج التعلم الآلي. إذا كانت لديك أي أسئلة أو أفكار حول هذا المنشور ، فلا تتردد في التواصل معنا في التعليقات أدناه أو من خلال تويتر.

مايكل جالارنيك هو متخصص في علوم البيانات ، ويعمل في علاقات المطورين في Anyscale.