قم بإعداد وتحليل بيانات JSON و ORC باستخدام Amazon SageMaker Data Wrangler

عقدة المصدر: 1600106

أمازون سيج ميكر داتا رانجلر هي قدرة جديدة الأمازون SageMaker هذا يجعل الأمر أسرع لعلماء ومهندسي البيانات لإعداد البيانات لتطبيقات التعلم الآلي (ML) عبر واجهة مرئية. يعد إعداد البيانات خطوة حاسمة في دورة حياة ML ، وتوفر Data Wrangler حلاً شاملاً لاستيراد البيانات وإعدادها وتحويلها وتميزها وتحليلها من أجل ML في تجربة سلسة ومرئية منخفضة التعليمات البرمجية. يتيح لك الاتصال بسهولة وسرعة بمكونات AWS مثل خدمة تخزين أمازون البسيطة (Amazon S3) ، أمازون أثينا, الأمازون الأحمرو تكوين بحيرة AWS، ومصادر خارجية مثل Snowflake. يدعم Data Wrangler أيضًا أنواع البيانات القياسية مثل CSV و Parquet.

يدعم Data Wrangler الآن بشكل إضافي عمود الصف المحسن (شركة مصفاة نفط عمان) وتنسيقات ملفات JavaScript Object Notation (JSON) و JSON Lines (JSONL):

  • شركة مصفاة نفط عمان - يوفر تنسيق ملف ORC طريقة فعالة للغاية لتخزين بيانات Hive. تم تصميمه للتغلب على قيود تنسيقات ملفات Hive الأخرى. يؤدي استخدام ملفات ORC إلى تحسين الأداء عندما تقوم Hive بقراءة البيانات وكتابتها ومعالجتها. يستخدم ORC على نطاق واسع في نظام Hadoop البيئي.
  • JSON - تنسيق ملف JSON هو تنسيق تبادل بيانات خفيف الوزن وشائع الاستخدام.
  • JSONL - JSON Lines ، التي تسمى أيضًا JSON المقيدة بسطر جديد ، هي تنسيق مناسب لتخزين البيانات المنظمة التي يمكن معالجتها بسجل واحد في كل مرة.

يمكنك معاينة بيانات ORC و JSON و JSONL قبل استيراد مجموعات البيانات إلى Data Wrangler. بعد استيراد البيانات ، يمكنك أيضًا استخدام أحد المحولات التي تم إطلاقها حديثًا للعمل مع الأعمدة التي تحتوي على سلاسل أو مصفوفات JSON التي توجد عادة في JSONs المتداخلة.

استيراد وتحليل بيانات ORC باستخدام Data Wrangler

يعد استيراد بيانات ORC في Data Wrangler أمرًا سهلاً ومشابهًا لاستيراد الملفات بأي تنسيقات أخرى مدعومة. استعرض للوصول إلى ملف ORC الخاص بك في Amazon S3 وفي ملف المواصفات ، اختر ORC كنوع الملف أثناء الاستيراد.

إذا كنت جديدًا في Data Wrangler ، فراجع ابدأ مع داتا رانجلر. انظر أيضا استيراد للتعرف على خيارات الاستيراد المختلفة.

استيراد وتحليل بيانات JSON باستخدام Data Wrangler

الآن دعنا نستورد الملفات بتنسيق JSON باستخدام Data Wrangler ونعمل مع الأعمدة التي تحتوي على سلاسل أو مصفوفات JSON. نوضح أيضًا كيفية التعامل مع JSONs المتداخلة. باستخدام Data Wrangler ، يعد استيراد ملفات JSON من Amazon S3 عملية سلسة. هذا مشابه لاستيراد الملفات بأي تنسيقات أخرى مدعومة. بعد استيراد الملفات ، يمكنك معاينة ملفات JSON كما هو موضح في لقطة الشاشة التالية. تأكد من ضبط نوع الملف على JSON بتنسيق المواصفات الجزء.

بعد ذلك ، دعنا نعمل على الأعمدة المهيكلة في ملف JSON المستورد.

للتعامل مع الأعمدة المهيكلة في ملفات JSON ، تقدم Data Wrangler تحولين جديدين: تسطيح عمود منظم و تنفجر عمود المصفوفة، والتي يمكن العثور عليها تحت التعامل مع عمود منظم الخيار في أضف تحويلاً الجزء.

لنبدأ بتطبيق تنفجر عمود المصفوفة تحويل إلى أحد الأعمدة في بياناتنا المستوردة. قبل تطبيق التحويل ، يمكننا رؤية العمود topping عبارة عن مصفوفة من كائنات JSON بها id و type مفاتيح.

بعد أن نطبق التحويل ، يمكننا ملاحظة الصفوف الجديدة المضافة كنتيجة لذلك. أصبح كل عنصر في المصفوفة الآن صفًا جديدًا في DataFrame الناتج.

الآن دعنا نطبق تسطيح عمود منظم تحويل على topping_flattened العمود الذي تم إنشاؤه كنتيجة لـ تنفجر عمود المصفوفة التحول الذي طبقناه في الخطوة السابقة.

قبل تطبيق التحويل ، يمكننا رؤية المفاتيح id و type في ال topping_flattened العمود.

بعد تطبيق التحويل ، يمكننا الآن ملاحظة المفاتيح id و type تحت topping_flattened العمود كأعمدة جديدة topping_flattened_id و topping_flattened_type، والتي تم إنشاؤها نتيجة للتحول. لديك أيضًا خيار تسوية مفاتيح محددة فقط عن طريق إدخال أسماء المفاتيح المفصولة بفواصل لـ مفاتيح للتسوية. إذا تُركت فارغة ، فسيتم تسوية جميع المفاتيح الموجودة داخل سلسلة JSON أو البنية.

وفي الختام

في هذا المنشور ، أوضحنا كيفية استيراد تنسيقات الملفات في ORC و JSON بسهولة باستخدام Data Wrangler. طبقنا أيضًا التحويلات التي تم إطلاقها حديثًا والتي تسمح لنا بتحويل أي أعمدة منظمة في بيانات JSON. هذا يجعل العمل مع الأعمدة التي تحتوي على سلاسل JSON أو المصفوفات تجربة سلسة.

كخطوات تالية ، نوصيك بتكرار الأمثلة الموضحة في واجهة Data Wrangler المرئية الخاصة بك. إذا كانت لديك أي أسئلة تتعلق بـ Data Wrangler ، فلا تتردد في تركها في قسم التعليقات.


حول المؤلف

بلاجي تومالا هو مهندس تطوير برمجيات في Amazon SageMaker. إنه يساعد في دعم Amazon SageMaker Data Wrangler وهو متحمس لإنشاء برامج عالية الأداء وقابلة للتطوير. خارج العمل ، يستمتع بقراءة القصص الخيالية ولعب الكرة الطائرة.

أرونبراساث شانكار هو مهندس حلول متخصص في الذكاء الاصطناعي والتعلم الآلي (AI / ML) مع AWS ، مما يساعد العملاء العالميين على توسيع نطاق حلول الذكاء الاصطناعي الخاصة بهم بفعالية وكفاءة في السحابة. يستمتع آرون في أوقات فراغه بمشاهدة أفلام الخيال العلمي والاستماع إلى الموسيقى الكلاسيكية.

المصدر: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

الطابع الزمني:

اكثر من AWS مدونة التعلم الآلي