أمازون سيج ميكر داتا رانجلر هي قدرة جديدة الأمازون SageMaker هذا يجعل الأمر أسرع لعلماء ومهندسي البيانات لإعداد البيانات لتطبيقات التعلم الآلي (ML) عبر واجهة مرئية. يعد إعداد البيانات خطوة حاسمة في دورة حياة ML ، وتوفر Data Wrangler حلاً شاملاً لاستيراد البيانات وإعدادها وتحويلها وتميزها وتحليلها من أجل ML في تجربة سلسة ومرئية منخفضة التعليمات البرمجية. يتيح لك الاتصال بسهولة وسرعة بمكونات AWS مثل خدمة تخزين أمازون البسيطة (Amazon S3) ، أمازون أثينا, الأمازون الأحمرو تكوين بحيرة AWS، ومصادر خارجية مثل Snowflake. يدعم Data Wrangler أيضًا أنواع البيانات القياسية مثل CSV و Parquet.
يدعم Data Wrangler الآن بشكل إضافي عمود الصف المحسن (شركة مصفاة نفط عمان) وتنسيقات ملفات JavaScript Object Notation (JSON) و JSON Lines (JSONL):
- شركة مصفاة نفط عمان - يوفر تنسيق ملف ORC طريقة فعالة للغاية لتخزين بيانات Hive. تم تصميمه للتغلب على قيود تنسيقات ملفات Hive الأخرى. يؤدي استخدام ملفات ORC إلى تحسين الأداء عندما تقوم Hive بقراءة البيانات وكتابتها ومعالجتها. يستخدم ORC على نطاق واسع في نظام Hadoop البيئي.
- JSON - تنسيق ملف JSON هو تنسيق تبادل بيانات خفيف الوزن وشائع الاستخدام.
- JSONL - JSON Lines ، التي تسمى أيضًا JSON المقيدة بسطر جديد ، هي تنسيق مناسب لتخزين البيانات المنظمة التي يمكن معالجتها بسجل واحد في كل مرة.
يمكنك معاينة بيانات ORC و JSON و JSONL قبل استيراد مجموعات البيانات إلى Data Wrangler. بعد استيراد البيانات ، يمكنك أيضًا استخدام أحد المحولات التي تم إطلاقها حديثًا للعمل مع الأعمدة التي تحتوي على سلاسل أو مصفوفات JSON التي توجد عادة في JSONs المتداخلة.
استيراد وتحليل بيانات ORC باستخدام Data Wrangler
يعد استيراد بيانات ORC في Data Wrangler أمرًا سهلاً ومشابهًا لاستيراد الملفات بأي تنسيقات أخرى مدعومة. استعرض للوصول إلى ملف ORC الخاص بك في Amazon S3 وفي ملف المواصفات ، اختر ORC كنوع الملف أثناء الاستيراد.
إذا كنت جديدًا في Data Wrangler ، فراجع ابدأ مع داتا رانجلر. انظر أيضا استيراد للتعرف على خيارات الاستيراد المختلفة.
استيراد وتحليل بيانات JSON باستخدام Data Wrangler
الآن دعنا نستورد الملفات بتنسيق JSON باستخدام Data Wrangler ونعمل مع الأعمدة التي تحتوي على سلاسل أو مصفوفات JSON. نوضح أيضًا كيفية التعامل مع JSONs المتداخلة. باستخدام Data Wrangler ، يعد استيراد ملفات JSON من Amazon S3 عملية سلسة. هذا مشابه لاستيراد الملفات بأي تنسيقات أخرى مدعومة. بعد استيراد الملفات ، يمكنك معاينة ملفات JSON كما هو موضح في لقطة الشاشة التالية. تأكد من ضبط نوع الملف على JSON بتنسيق المواصفات الجزء.
بعد ذلك ، دعنا نعمل على الأعمدة المهيكلة في ملف JSON المستورد.
للتعامل مع الأعمدة المهيكلة في ملفات JSON ، تقدم Data Wrangler تحولين جديدين: تسطيح عمود منظم و تنفجر عمود المصفوفة، والتي يمكن العثور عليها تحت التعامل مع عمود منظم الخيار في أضف تحويلاً الجزء.
لنبدأ بتطبيق تنفجر عمود المصفوفة تحويل إلى أحد الأعمدة في بياناتنا المستوردة. قبل تطبيق التحويل ، يمكننا رؤية العمود topping
عبارة عن مصفوفة من كائنات JSON بها id
و type
مفاتيح.
بعد أن نطبق التحويل ، يمكننا ملاحظة الصفوف الجديدة المضافة كنتيجة لذلك. أصبح كل عنصر في المصفوفة الآن صفًا جديدًا في DataFrame الناتج.
الآن دعنا نطبق تسطيح عمود منظم تحويل على topping_flattened
العمود الذي تم إنشاؤه كنتيجة لـ تنفجر عمود المصفوفة التحول الذي طبقناه في الخطوة السابقة.
قبل تطبيق التحويل ، يمكننا رؤية المفاتيح id
و type
في ال topping_flattened
العمود.
بعد تطبيق التحويل ، يمكننا الآن ملاحظة المفاتيح id
و type
تحت topping_flattened
العمود كأعمدة جديدة topping_flattened_id
و topping_flattened_type
، والتي تم إنشاؤها نتيجة للتحول. لديك أيضًا خيار تسوية مفاتيح محددة فقط عن طريق إدخال أسماء المفاتيح المفصولة بفواصل لـ مفاتيح للتسوية. إذا تُركت فارغة ، فسيتم تسوية جميع المفاتيح الموجودة داخل سلسلة JSON أو البنية.
وفي الختام
في هذا المنشور ، أوضحنا كيفية استيراد تنسيقات الملفات في ORC و JSON بسهولة باستخدام Data Wrangler. طبقنا أيضًا التحويلات التي تم إطلاقها حديثًا والتي تسمح لنا بتحويل أي أعمدة منظمة في بيانات JSON. هذا يجعل العمل مع الأعمدة التي تحتوي على سلاسل JSON أو المصفوفات تجربة سلسة.
كخطوات تالية ، نوصيك بتكرار الأمثلة الموضحة في واجهة Data Wrangler المرئية الخاصة بك. إذا كانت لديك أي أسئلة تتعلق بـ Data Wrangler ، فلا تتردد في تركها في قسم التعليقات.
حول المؤلف
بلاجي تومالا هو مهندس تطوير برمجيات في Amazon SageMaker. إنه يساعد في دعم Amazon SageMaker Data Wrangler وهو متحمس لإنشاء برامج عالية الأداء وقابلة للتطوير. خارج العمل ، يستمتع بقراءة القصص الخيالية ولعب الكرة الطائرة.
أرونبراساث شانكار هو مهندس حلول متخصص في الذكاء الاصطناعي والتعلم الآلي (AI / ML) مع AWS ، مما يساعد العملاء العالميين على توسيع نطاق حلول الذكاء الاصطناعي الخاصة بهم بفعالية وكفاءة في السحابة. يستمتع آرون في أوقات فراغه بمشاهدة أفلام الخيال العلمي والاستماع إلى الموسيقى الكلاسيكية.
- '
- 100
- من نحن
- AI
- الكل
- أمازون
- الأمازون SageMaker
- أباتشي
- التطبيقات
- مصطنع
- الذكاء الاصطناعي
- الذكاء الاصطناعي وآلة التعلم
- AWS
- ابني
- سحابة
- عمود
- العملاء
- البيانات
- صفقة
- التطوير التجاري
- أثناء
- بسهولة
- النظام الإيكولوجي
- مهندس
- المهندسين
- الخبره في مجال الغطس
- أسرع
- خيال
- شكل
- وجدت
- مجانًا
- العالمية
- Hadoop
- يساعد
- جدا
- خلية النحل
- كيفية
- كيفية
- HTTPS
- استيراد
- رؤيتنا
- IT
- جافا سكريبت
- القفل
- مفاتيح
- تعلم
- تعلم
- استماع
- آلة التعلم
- ML
- أفلام
- موسيقى
- أسماء
- خيار
- مزيد من الخيارات
- أخرى
- أداء
- أرسال
- عملية المعالجة
- ويوفر
- نادي القراءة
- نوصي
- سجل
- مراجعة
- sagemaker
- تحجيم
- حجم
- العلماء
- سلس
- طقم
- مماثل
- الاشارات
- تطبيقات الكمبيوتر
- تطوير البرمجيات
- الحلول
- بداية
- بدأت
- تخزين
- متجر
- الدعم
- مدعومة
- الدعم
- الوقت
- تحول
- تحول
- us
- على نحو واسع
- للعمل
- عامل
- جاري الكتابة