وازن بياناتك للتعلم الآلي باستخدام Amazon SageMaker Data Wrangler

عقدة المصدر: 1600102

أمازون سيج ميكر داتا رانجلر هي قدرة جديدة الأمازون SageMaker التي تجعل الأمر أسرع لعلماء ومهندسي البيانات لإعداد البيانات لتطبيقات التعلم الآلي (ML) باستخدام واجهة مرئية. يحتوي على أكثر من 300 تحويل بيانات مدمج بحيث يمكنك تطبيع الميزات وتحويلها ودمجها بسرعة دون الحاجة إلى كتابة أي رمز.

اليوم ، نحن متحمسون للإعلان عن تحويلات جديدة تسمح لك بموازنة مجموعات البيانات الخاصة بك بسهولة وفعالية لتدريب نموذج ML. نوضح كيف تعمل هذه التحولات في هذا المنشور.

مشغلات موازنة جديدة

تم تجميع مشغلي الموازنة المُعلن عنها حديثًا ضمن بيانات التوازن نوع التحويل في أضف تحويل الجزء.

حاليًا ، يدعم مشغلو التحويل مشاكل التصنيف الثنائي فقط. في مشاكل التصنيف الثنائي ، يُكلف المصنف بتصنيف كل عينة إلى فئة واحدة من فئتين. عندما يكون عدد العينات في فئة الأغلبية (الأكبر) أكبر بكثير من عدد العينات في فئة الأقلية (الأصغر) ، تعتبر مجموعة البيانات غير متوازنة. يمثل هذا الانحراف تحديًا لخوارزميات التعلم الآلي والمصنفات لأن عملية التدريب تميل إلى أن تكون منحازة نحو فئة الأغلبية.

تم اقتراح مخططات الموازنة ، التي تزيد البيانات لتكون أكثر توازناً قبل تدريب المصنف ، لمواجهة هذا التحدي. إن أبسط طرق الموازنة هي إما زيادة عينات فئة الأقلية عن طريق تكرار عينات الأقلية أو تقليل عينات فئة الأغلبية عن طريق إزالة عينات الأغلبية. تم اقتراح فكرة إضافة عينات أقلية تركيبية إلى البيانات المجدولة لأول مرة في تقنية فرط عينات الأقليات الاصطناعية (SMOTE) ، حيث يتم إنشاء عينات الأقليات الاصطناعية عن طريق استيفاء أزواج من نقاط الأقلية الأصلية. تمت دراسة SMOTE وأنظمة الموازنة الأخرى على نطاق واسع تجريبيًا وأظهرت أنها تحسن أداء التنبؤ في سيناريوهات مختلفة ، وفقًا للمنشور لسموت أو لا سموت.

تدعم Data Wrangler الآن عوامل التوازن التالية كجزء من بيانات التوازن تحول:

  • العشوائية الزائدة - تكرار عينات الأقليات بشكل عشوائي
  • ندرة عشوائية - إزالة عينات الأغلبية بشكل عشوائي
  • سموت - توليد عينات أقلية اصطناعية عن طريق استيفاء عينات أقلية حقيقية

دعنا الآن نناقش عوامل التوازن المختلفة بالتفصيل.

العشوائية الزائدة

يشمل الإفراط العشوائي في اختيار أمثلة عشوائية من فئة الأقلية مع استبدال واستكمال بيانات التدريب بنسخ متعددة من هذه الحالة. لذلك ، من الممكن أن يتم تحديد مثيل واحد عدة مرات. مع ال عشوائية عيّنة مفرطة نوع التحويل ، تقوم Data Wrangler تلقائيًا بإفراط في عينات فئة الأقلية نيابة عنك عن طريق نسخ عينات الأقلية في مجموعة البيانات الخاصة بك.

عينة عشوائية

الاختزال العشوائي للعينات هو عكس الإفراط العشوائي في العينات. تسعى هذه الطريقة إلى اختيار وإزالة العينات بشكل عشوائي من فئة الأغلبية ، وبالتالي تقليل عدد الأمثلة في فئة الأغلبية في البيانات المحولة. ال عشوائية أقل من عينة يتيح نوع التحويل Data Wrangler تلقائيًا عينة أقل من فئة الأغلبية عن طريق إزالة عينات الأغلبية في مجموعة البيانات الخاصة بك.

سموت

في SMOTE ، تمت إضافة عينات الأقليات الاصطناعية إلى البيانات لتحقيق النسبة المرغوبة بين عينات الأغلبية والأقلية. يتم إنشاء العينات الاصطناعية عن طريق الاستيفاء من أزواج من نقاط الأقلية الأصلية. ال سموت يدعم التحويل موازنة مجموعات البيانات بما في ذلك الميزات الرقمية وغير الرقمية. يتم إقحام الميزات الرقمية بالمتوسط ​​المرجح. ومع ذلك ، لا يمكنك تطبيق متوسط ​​الاستيفاء المرجح على الميزات غير الرقمية - من المستحيل حساب المتوسط “dog” و “cat” على سبيل المثال. بدلاً من ذلك ، يتم نسخ السمات غير الرقمية من عينة الأقلية الأصلية وفقًا لمتوسط ​​الوزن.

على سبيل المثال ، ضع في اعتبارك عينتين ، أ و ب:

A = [1, 2, "dog", "carnivore"]
B = [0, 0, "cow", "herbivore"]

افترض أن العينات محرفة بأوزان 0.3 للعينة A و 0.7 للعينة B. لذلك ، يتم حساب متوسط ​​الحقول الرقمية بهذه الأوزان لإنتاج 0.3 و 0.6 على التوالي. الحقل التالي مليء “dog” مع احتمال 0.3 و “cow” مع احتمال 0.7. وبالمثل ، فإن التالي يساوي “carnivore” مع احتمال 0.3 و “herbivore” مع احتمال 0.7. يتم إجراء النسخ العشوائي لكل ميزة بشكل مستقل ، لذا فإن العينة C أدناه هي نتيجة محتملة:

C = [0.3, 0.6, "dog", "herbivore"]

يوضح هذا المثال كيف يمكن أن تؤدي عملية الاستيفاء إلى عينات اصطناعية غير واقعية ، مثل كلب عاشب. هذا أكثر شيوعًا مع الميزات الفئوية ولكن يمكن أن يحدث في الميزات الرقمية أيضًا. على الرغم من أن بعض العينات الاصطناعية قد تكون غير واقعية ، لا يزال بإمكان SMOTE تحسين أداء التصنيف.

لتوليد عينات أكثر واقعية من الناحية الاستكشافية ، تقحم SMOTE الأزواج القريبة فقط في مساحة الميزات. من الناحية الفنية ، يتم استيفاء كل عينة فقط مع جيرانها الأقرب لـ k ، حيث تكون القيمة المشتركة لـ k هي 5. في تطبيقنا لـ SMOTE ، يتم استخدام الميزات الرقمية فقط لحساب المسافات بين النقاط (تُستخدم المسافات لتحديد الجوار من كل عينة). من الشائع تسوية الميزات الرقمية قبل حساب المسافات. لاحظ أنه يتم تسوية الميزات الرقمية فقط لغرض حساب المسافة ؛ لم يتم تطبيع الميزات المحرف الناتجة.

دعنا الآن نوازن مجموعة بيانات الكبار (المعروف أيضًا باسم مجموعة بيانات دخل التعداد) باستخدام تحويل SMOTE المدمج الذي توفره Data Wrangler. تتضمن مجموعة البيانات متعددة المتغيرات هذه ست ميزات رقمية وثمانية ميزات سلسلة. الهدف من مجموعة البيانات هو مهمة تصنيف ثنائية للتنبؤ بما إذا كان دخل الفرد يتجاوز 50,000 دولار في السنة أم لا بناءً على بيانات التعداد.

يمكنك أيضًا مشاهدة توزيع الفئات بشكل مرئي عن طريق إنشاء مدرج تكراري باستخدام امتداد نوع تحليل المدرج التكراري في Data Wrangler. التوزيع المستهدف غير متوازن ونسبة السجلات مع >50K إلى <=50K حوالي 1: 4.

يمكننا موازنة هذه البيانات باستخدام سموت وجدت عامل تحت بيانات الرصيد التحويل في داتا رانجلر باتباع الخطوات التالية:

  1. اختار income كعمود الهدف.

نريد أن يكون توزيع هذا العمود أكثر توازناً.

  1. اضبط النسبة المطلوبة على 0.66.

لذلك ، فإن النسبة بين عدد عينات الأقلية والأغلبية هي 2: 3 (بدلاً من النسبة الأولية 1: 4).

  1. اختار سموت كالتحول للاستخدام.
  2. اترك القيم الافتراضية لـ عدد الجيران في المتوسط ​​وما إذا كان سيتم التطبيع أم لا.
  3. اختار أرسال للحصول على معاينة للتحويل المطبق والاختيار أضف لإضافة التحويل إلى تدفق البيانات الخاصة بك.

يمكننا الآن إنشاء مدرج تكراري جديد مشابه لما فعلناه من قبل لرؤية التوزيع المعاد تنظيمه للفئات. يوضح الشكل التالي الرسم البياني لملف income العمود بعد موازنة مجموعة البيانات. أصبح توزيع العينات الآن 3: 2 كما كان مقصودًا.

يمكننا الآن تصدير هذه البيانات المتوازنة الجديدة وتدريب المصنف عليها ، مما قد يؤدي إلى جودة تنبؤ فائقة.

وفي الختام

في هذا المنشور ، أوضحنا كيفية موازنة بيانات التصنيف الثنائي غير المتوازنة باستخدام Data Wrangler. تقدم Data Wrangler ثلاثة عوامل موازنة: اختزال عشوائي ، وأخذ عينات عشوائية مفرطة ، و SMOTE لإعادة توازن البيانات في مجموعات البيانات غير المتوازنة. تدعم جميع الطرق الثلاثة التي تقدمها Data Wrangler البيانات متعددة الوسائط بما في ذلك الميزات الرقمية وغير الرقمية.

كخطوات تالية ، نوصيك بتكرار المثال في هذا المنشور في تدفق بيانات Data Wrangler لمعرفة ما ناقشناه في العمل. إذا كنت جديدًا في Data Wrangler أو استوديو SageMaker، تشير إلى ابدأ مع داتا رانجلر. إذا كان لديك أي أسئلة تتعلق بهذا المنشور ، يرجى إضافته في قسم التعليقات.


حول المؤلف

يوتام إلور هو عالم تطبيقي أقدم في Amazon SageMaker. تتركز اهتماماته البحثية في التعلم الآلي ، لا سيما فيما يتعلق بالبيانات الجدولية.

أرونبراساث شانكار هو مهندس حلول متخصص في الذكاء الاصطناعي والتعلم الآلي (AI / ML) مع AWS ، مما يساعد العملاء العالميين على توسيع نطاق حلول الذكاء الاصطناعي الخاصة بهم بفعالية وكفاءة في السحابة. يستمتع آرون في أوقات فراغه بمشاهدة أفلام الخيال العلمي والاستماع إلى الموسيقى الكلاسيكية.

المصدر: https://aws.amazon.com/blogs/machine-learning/balance-your-data-for-machine-learning-with-amazon-sagemaker-data-wrangler/

الطابع الزمني:

اكثر من AWS مدونة التعلم الآلي