قم بإجراء تجارب AutoML مع مجموعات بيانات كبيرة من الباركيه باستخدام Amazon SageMaker Autopilot

عقدة المصدر: 1596421

ابتداء من اليوم ، يمكنك استخدام Amazon SageMaker الطيار الآلي لمعالجة مهام الانحدار والتصنيف على مجموعات بيانات كبيرة تصل إلى 100 جيجابايت. بالإضافة إلى ذلك ، يمكنك الآن تقديم مجموعات البيانات الخاصة بك إما بتنسيق CSV أو اباتشي باركيه أنواع المحتويات.

تولد الشركات بيانات أكثر من أي وقت مضى. يتزايد الطلب المقابل لتوليد رؤى من مجموعات البيانات الكبيرة هذه لتشكيل قرارات العمل. ومع ذلك ، فإن التدريب الناجح على أحدث خوارزميات التعلم الآلي (ML) على مجموعات البيانات الكبيرة هذه يمكن أن يمثل تحديًا. يقوم الطيار الآلي بأتمتة هذه العملية ويوفر تجربة سلسة لتشغيل التعلم الآلي الآلي (AutoML) على مجموعات بيانات كبيرة تصل إلى 100 جيجابايت.

عينات فرعية للطيار الآلي من مجموعات البيانات الكبيرة تلقائيًا لتلائم الحد الأقصى المدعوم مع الحفاظ على الفئة النادرة في حالة عدم التوازن الطبقي. يعد عدم توازن الفئة مشكلة مهمة يجب أن تكون على دراية بها في ML ، خاصة عند التعامل مع مجموعات البيانات الكبيرة. ضع في اعتبارك مجموعة بيانات للكشف عن الاحتيال حيث يُتوقع أن يكون جزء صغير فقط من المعاملات احتيالية. في هذه الحالة ، يقوم الطيار الآلي بإجراء عينات فرعية فقط للمعاملات غير الاحتيالية من فئة الأغلبية ، مع الحفاظ على الصفقات الاحتيالية النادرة.

عند تشغيل مهمة AutoML باستخدام الطيار الآلي ، يتم تخزين جميع المعلومات ذات الصلة لأخذ العينات الفرعية في الأمازون CloudWatch. انتقل إلى مجموعة السجل الخاصة بـ /aws/sagemaker/ProcessingJobs، وابحث عن اسم مهمة AutoML الخاصة بك ، واختر تدفق سجل CloudWatch الذي يتضمن -db- في اسمه.

يفضل العديد من عملائنا نوع محتوى الباركيه لتخزين مجموعات البيانات الكبيرة الخاصة بهم. هذا يرجع عمومًا إلى طبيعته المضغوطة ودعم هياكل البيانات المتقدمة والكفاءة والعمليات منخفضة التكلفة. يمكن أن تصل هذه البيانات غالبًا إلى عشرات أو حتى مئات الجيجابايت. الآن ، يمكنك إحضار مجموعات بيانات الباركيه هذه مباشرة إلى الطيار الآلي. يمكنك إما استخدام API الخاص بنا أو الانتقال إلى أمازون ساجميكر ستوديو لإنشاء وظيفة الطيار الآلي ببضع نقرات. يمكنك تحديد موقع الإدخال لمجموعة بيانات Parquet كملف واحد أو ملفات متعددة محددة كملف بيان. يكتشف الطيار الآلي تلقائيًا نوع محتوى مجموعة البيانات الخاصة بك ، ويحللها ، ويستخرج ميزات ذات مغزى ، ويدرب عدة خوارزميات ML.

يمكنك البدء في استخدام نموذج دفتر الملاحظات لتشغيل AutoML باستخدام الطيار الآلي على مجموعات بيانات الباركيه.


حول المؤلف

هـ. فرقان بوزكورت، مهندس تعلم الآلة ، Amazon SageMaker Autopilot.

فاليريو بيروني، مدير العلوم التطبيقية ، Amazon SageMaker Autopilot.

المصدر: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

الطابع الزمني:

اكثر من AWS مدونة التعلم الآلي