ابدأ مهام المعالجة ببضع نقرات باستخدام Amazon SageMaker Data Wrangler

عقدة المصدر: 1600104

أمازون سيج ميكر داتا رانجلر يجعل الأمر أسرع لعلماء ومهندسي البيانات في إعداد البيانات لتطبيقات التعلم الآلي (ML) باستخدام واجهة مرئية. في السابق، عندما قمت بإنشاء تدفق بيانات Data Wrangler، كان بإمكانك اختيار خيارات تصدير مختلفة لدمج تدفق البيانات هذا بسهولة في مسار معالجة البيانات لديك. تقدم Data Wrangler خيارات التصدير إلى خدمة تخزين أمازون البسيطة (Amazon S3) ، خطوط الأنابيب SageMakerو متجر ميزات SageMakerأو كرمز بايثون. تقوم خيارات التصدير بإنشاء دفتر ملاحظات Jupyter وتطلب منك تشغيل التعليمات البرمجية لبدء مهمة المعالجة التي يسهلها معالجة SageMaker.

يسعدنا أن نعلن عن الإصدار العام للعقد الوجهة وميزة إنشاء وظيفة في Data Wrangler. تمنحك هذه الميزة القدرة على تصدير جميع التحويلات التي أجريتها على مجموعة بيانات إلى عقدة الوجهة ببضع نقرات فقط. يتيح لك هذا إنشاء مهام معالجة البيانات وتصديرها إلى Amazon S3 عبر الواجهة المرئية فقط دون الحاجة إلى إنشاء دفاتر ملاحظات Jupyter أو تشغيلها أو إدارتها، وبالتالي تحسين تجربة التعليمات البرمجية المنخفضة. لتوضيح هذه الميزة الجديدة، نستخدم مجموعة بيانات تيتانيك وإظهار كيفية تصدير تحويلاتك إلى عقدة الوجهة.

المتطلبات الأساسية المسبقة

قبل أن نتعلم كيفية استخدام العقد الوجهة مع Data Wrangler، يجب أن تفهم بالفعل كيفية القيام بذلك الوصول والبدء في استخدام Data Wrangler. تحتاج أيضًا إلى معرفة ما أ تدفق البيانات يعني سياق Data Wrangler وكيفية إنشاء واحد عن طريق استيراد بياناتك من مصادر البيانات المختلفة التي يدعمها Data Wrangler.

حل نظرة عامة

خذ بعين الاعتبار تدفق البيانات التالي المسمى example-titanic.flow:

  • يقوم باستيراد مجموعة بيانات تيتانيك ثلاث مرات. يمكنك رؤية هذه الواردات المختلفة كفروع منفصلة في تدفق البيانات.
  • لكل فرع يتم تطبيق مجموعة من التحولات والتصورات.
  • فهو يجمع الفروع في عقدة واحدة مع كل التحولات والتصورات.

باستخدام هذا التدفق، قد ترغب في معالجة أجزاء من بياناتك وحفظها في فرع أو موقع محدد.

في الخطوات التالية، نوضح كيفية إنشاء العقد الوجهة، وتصديرها إلى Amazon S3، وإنشاء مهمة معالجة وتشغيلها.

إنشاء عقدة الوجهة

يمكنك استخدام الإجراء التالي لإنشاء العقد الوجهة وتصديرها إلى حاوية S3:

  1. حدد أجزاء ملف التدفق (التحويلات) التي تريد حفظها.
  2. اختر علامة الجمع الموجودة بجوار العقد التي تمثل التحويلات التي تريد تصديرها. (إذا كانت عقدة مطوية، فيجب عليك تحديد أيقونة الخيارات (ثلاث نقاط) للعقدة).
  3. تحوم فوق أضف الوجهة.
  4. اختار الأمازون S3.
  5. حدد الحقول كما هو موضح في لقطة الشاشة التالية.
  6. بالنسبة لعقدة الانضمام الثانية، اتبع نفس الخطوات لإضافة Amazon S3 كوجهة وتحديد الحقول.

يمكنك تكرار هذه الخطوات عدة مرات حسب حاجتك لعدد العقد التي تريدها في تدفق البيانات. لاحقًا، يمكنك اختيار العقد الوجهة التي تريد تضمينها في مهمة المعالجة الخاصة بك.

إطلاق مهمة المعالجة

استخدم الإجراء التالي لإنشاء مهمة معالجة واختيار العقدة الوجهة التي تريد التصدير إليها:

  1. على تدفق البيانات علامة التبويب، اختر خلق وظيفة.
  2. في حالة اسم العمل¸ أدخل اسم مهمة التصدير.
  3. حدد العقد الوجهة التي تريد تصديرها.
  4. اختياريًا، حدد خدمة إدارة مفتاح AWS (AWS KMS) مفتاح ARN.

مفتاح KMS هو مفتاح تشفير يمكنك استخدامه لحماية بياناتك. لمزيد من المعلومات حول مفاتيح KMS، راجع دليل مطور مفتاح AWS.

  1. اختار التالي ، 2. تكوين الوظيفة.
  2. اختياريًا، يمكنك تكوين الوظيفة وفقًا لاحتياجاتك عن طريق تغيير نوع المثيل أو عدده، أو إضافة أي علامات لربطها بالمهمة.
  3. اختار يجري لتشغيل الوظيفة.

تظهر رسالة نجاح عند إنشاء المهمة بنجاح.

عرض البيانات النهائية

وأخيرًا، يمكنك استخدام الخطوات التالية لعرض البيانات المصدرة:

  1. بعد إنشاء الوظيفة، اختر الرابط المقدم.

يتم فتح علامة تبويب جديدة تعرض مهمة المعالجة على وحدة تحكم SageMaker.

  1. عند اكتمال المهمة، قم بمراجعة البيانات المصدرة على وحدة تحكم Amazon S3.

يجب أن تشاهد مجلدًا جديدًا باسم الوظيفة التي اخترتها.

  1. اختر اسم المهمة لعرض ملف CSV (أو ملفات متعددة) مع البيانات النهائية.

الأسئلة الشائعة

في هذا القسم، نجيب على بعض الأسئلة الشائعة حول هذه الميزة الجديدة:

  • ماذا حدث لعلامة التبويب "تصدير"؟ مع هذه الميزة الجديدة، قمنا بإزالة تصدير علامة التبويب من بيانات رانجلر. لا يزال بإمكانك تسهيل وظيفة التصدير عبر دفاتر ملاحظات Jupyter التي أنشأتها Data Wrangler من أي عقد قمت بإنشائها في تدفق البيانات من خلال الخطوات التالية:
    1. اختر علامة الجمع الموجودة بجوار العقدة التي تريد تصديرها.
    2. اختار تصدير الى.
    3. اختار Amazon S3 (عبر دفتر Jupyter).
    4. قم بتشغيل دفتر Jupyter.
  • كم عدد عقد الوجهات التي يمكنني تضمينها في الوظيفة؟ هناك 10 وجهات كحد أقصى لكل مهمة معالجة.
  • كم عدد العقد الوجهة التي يمكنني الحصول عليها في ملف التدفق؟ يمكنك الحصول على أي عدد تريده من العقد الوجهة.
  • هل يمكنني إضافة تحويلات بعد العقد الوجهة الخاصة بي؟ لا، الفكرة هي أن العقد الوجهة هي عقد طرفية ليس لها أي خطوات أخرى بعد ذلك.
  • ما هي المصادر المدعومة التي يمكنني استخدامها مع العقد الوجهة؟ حتى وقت كتابة هذه السطور، نحن ندعم Amazon S3 فقط كمصدر وجهة. سيتم إضافة دعم لمزيد من أنواع مصادر الوجهة في المستقبل. يرجى التواصل إذا كان هناك شيء محدد ترغب في رؤيته.

نبذة عامة

في هذا المنشور، أوضحنا كيفية استخدام العقد الوجهة التي تم إطلاقها حديثًا لإنشاء وظائف معالجة وحفظ مجموعات البيانات المحولة مباشرة إلى Amazon S3 عبر واجهة Data Wrangler المرئية. بفضل هذه الميزة الإضافية، قمنا بتحسين تجربة استخدام التعليمات البرمجية المنخفضة المعتمدة على الأدوات في Data Wrangler.

كخطوات تالية، نوصيك بتجربة المثال الموضح في هذا المنشور. إذا كان لديك أي أسئلة أو تريد معرفة المزيد، راجع تصدير أو ترك سؤال في قسم التعليق.


حول المؤلف

ألفونسو أوستن ريفيرا هو مهندس الواجهة الأمامية في Amazon SageMaker Data Wrangler. إنه متحمس لبناء تجارب مستخدم بديهية تثير الفرح. في أوقات فراغه، يمكنك أن تجده يحارب الجاذبية في صالة الألعاب الرياضية لتسلق الصخور أو في الخارج يقود طائرته بدون طيار.

بارسا شاهبوداغي هو كاتب تقني في AWS متخصص في التعلم الآلي والذكاء الاصطناعي. يقوم بكتابة الوثائق الفنية لـ Amazon SageMaker Data Wrangler وAmazon SageMaker Features Store. يستمتع في أوقات فراغه بالتأمل والاستماع إلى الكتب الصوتية ورفع الأثقال ومشاهدة الكوميديا. لن يصبح أبدًا ممثلًا كوميديًا، لكن والدته على الأقل تعتقد أنه مضحك.

بلاجي تومالا هو مهندس تطوير برمجيات في Amazon SageMaker. إنه يساعد في دعم Amazon SageMaker Data Wrangler وهو متحمس لإنشاء برامج عالية الأداء وقابلة للتطوير. خارج العمل ، يستمتع بقراءة القصص الخيالية ولعب الكرة الطائرة.

أرونبراساث شانكار هو مهندس حلول متخصص في الذكاء الاصطناعي والتعلم الآلي (AI / ML) مع AWS ، مما يساعد العملاء العالميين على توسيع نطاق حلول الذكاء الاصطناعي الخاصة بهم بفعالية وكفاءة في السحابة. يستمتع آرون في أوقات فراغه بمشاهدة أفلام الخيال العلمي والاستماع إلى الموسيقى الكلاسيكية.

المصدر: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

الطابع الزمني:

اكثر من AWS مدونة التعلم الآلي