הכן ונתח נתוני JSON ו-ORC עם Amazon SageMaker Data Wrangler

צומת המקור: 1600106

רנגלר הנתונים של אמזון SageMaker היא יכולת חדשה של אמזון SageMaker מה שהופך את זה למהיר יותר עבור מדעני נתונים ומהנדסים להכין נתונים ליישומי למידת מכונה (ML) באמצעות ממשק חזותי. הכנת נתונים היא שלב מכריע במחזור החיים של ML, ו-Data Wrangler מספקת פתרון מקצה לקצה לייבוא, הכנה, שינוי, הצגת נתונים וניתוח נתונים עבור ML בחוויה חלקה, ויזואלית ודלת קוד. זה מאפשר לך להתחבר בקלות ובמהירות לרכיבי AWS כמו שירות אחסון פשוט של אמזון (אמזון S3), אמזונה אתנה, האדום של אמזון, ו תצורת אגם AWS, ומקורות חיצוניים כמו Snowflake. Data Wrangler תומך גם בסוגי נתונים סטנדרטיים כגון CSV ופרקט.

Data Wrangler תומך כעת בנוסף ב- Optimized Row Columnar (CRO), תבניות קובץ JavaScript (JSON) ו-JSON Lines (JSONL):

  • CRO - פורמט הקובץ ORC מספק דרך יעילה ביותר לאחסן נתוני Hive. הוא תוכנן כדי להתגבר על מגבלות של פורמטים אחרים של קבצי Hive. שימוש בקובצי ORC משפר את הביצועים כאשר Hive קורא, כותב ומעבד נתונים. ORC נמצא בשימוש נרחב במערכת האקולוגית של Hadoop.
  • JSON - פורמט הקובץ JSON הוא פורמט קל משקל, נפוץ להחלפת נתונים.
  • JSONL – קווי JSON, הנקראים גם JSON מופרד בשורה, הוא פורמט נוח לאחסון נתונים מובנים שניתן לעבד רשומה אחת בכל פעם.

אתה יכול לצפות בתצוגה מקדימה של נתוני ORC, JSON ו-JSONL לפני ייבוא ​​מערכי הנתונים לתוך Data Wrangler. לאחר ייבוא ​​הנתונים, תוכל גם להשתמש באחד מהשנאים החדשים שהושקו כדי לעבוד עם עמודות המכילות מחרוזות או מערכים של JSON שנמצאים בדרך כלל ב-JSON מקוננים.

ייבוא ​​וניתוח נתוני ORC עם Data Wrangler

ייבוא ​​נתוני ORC הוא ב-Data Wrangler קל ודומה לייבוא ​​קבצים בכל פורמט נתמך אחר. דפדף לקובץ ה-ORC שלך ב-Amazon S3 וב- פרטים בחלונית, בחר ב-ORC כסוג הקובץ במהלך הייבוא.

אם אתה חדש ב-Data Wrangler, בדוק התחל לעבוד עם Data Wrangler. כמו כן, ראה תבואו כדי ללמוד על אפשרויות הייבוא ​​השונות.

ייבוא ​​וניתוח נתוני JSON עם Data Wrangler

כעת בואו נייבא קבצים בפורמט JSON עם Data Wrangler ונעבוד עם עמודות המכילות מחרוזות או מערכים של JSON. אנו גם מדגימים כיצד להתמודד עם JSONs מקוננים. עם Data Wrangler, ייבוא ​​קבצי JSON מאמזון S3 הוא תהליך חלק. זה דומה לייבוא ​​קבצים בכל פורמט נתמך אחר. לאחר ייבוא ​​הקבצים, תוכל לצפות בתצוגה מקדימה של קבצי JSON כפי שמוצג בצילום המסך הבא. הקפד להגדיר את סוג הקובץ ל-JSON ב- פרטים שִׁמשָׁה.

לאחר מכן, בואו נעבוד על עמודות מובנות בקובץ ה-JSON המיובא.

כדי להתמודד עם עמודות מובנות בקובצי JSON, Data Wrangler מציגה שתי טרנספורמציות חדשות: שטוח עמודה מובנית ו עמודת פיצוץ מערך, אשר ניתן למצוא תחת טפל בעמודה מובנית אפשרות ב הוסף טרנספורמציה שִׁמשָׁה.

בואו נתחיל ביישום ה עמודת פיצוץ מערך להפוך לאחת העמודות בנתונים המיובאים שלנו. לפני החלת ההמרה, נוכל לראות את העמודה topping הוא מערך של אובייקטי JSON עם id ו type מפתחות.

לאחר שנחיל את ההמרה, נוכל לראות את השורות החדשות שנוספו כתוצאה מכך. כל אלמנט במערך הוא כעת שורה חדשה ב-DataFrame שנוצר.

עכשיו בואו ליישם את שטוח עמודה מובנית להפוך על topping_flattened עמודה שנוצרה כתוצאה מה- עמודת פיצוץ מערך טרנספורמציה שהחלנו בשלב הקודם.

לפני החלת ההמרה, נוכל לראות את המפתחות id ו type ב topping_flattened עמודה.

לאחר החלת הטרנספורמציה, אנו יכולים כעת לצפות במפתחות id ו type תחת topping_flattened עמודה כעמודות חדשות topping_flattened_id ו topping_flattened_type, שנוצרים כתוצאה מהטרנספורמציה. יש לך גם אפשרות לשטח רק מפתחות ספציפיים על ידי הזנת שמות המקשים המופרדים בפסיקים עבור מפתחות לשטח עליהם. אם נותרים ריקים, כל המקשים בתוך מחרוזת ה-JSON או המבנה משטחים.

סיכום

בפוסט זה, הדגמנו כיצד לייבא פורמטים של קבצים ב-ORC ו-JSON בקלות עם Data Wrangler. כמו כן, יישמנו את הטרנספורמציות החדשות שהושקו, המאפשרות לנו להפוך כל עמודה מובנית בנתוני JSON. זה הופך את העבודה עם עמודות המכילות מחרוזות או מערכים של JSON לחוויה חלקה.

כשלבים הבאים, אנו ממליצים לשכפל את הדוגמאות המודגמות בממשק החזותי של Data Wrangler משלך. אם יש לך שאלות הקשורות ל-Data Wrangler, אל תהסס להשאיר אותן בקטע התגובות.


על הכותבים

Balaji Tummala הוא מהנדס פיתוח תוכנה באמזון SageMaker. הוא עוזר לתמוך באמזון SageMaker Data Wrangler ונלהב לבנות תוכנה בעלת ביצועים וניתנים להרחבה. מחוץ לעבודה, הוא נהנה לקרוא ספרות ולשחק כדורעף.

ארונפרשת שנקר הוא אדריכל פתרונות מומחים לבינה מלאכותית ולמידת מכונות (AI / ML) עם AWS, המסייע ללקוחות גלובליים לשנות את פתרונות ה- AI שלהם ביעילות וביעילות בענן. בזמנו הפנוי, ארון נהנה לצפות בסרטי מדע בדיוני ולהאזין למוזיקה קלאסית.

מקור: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

בול זמן:

עוד מ בלוג למידת מכונות AWS