הפעל עבודות עיבוד בכמה לחיצות באמצעות Amazon SageMaker Data Wrangler

צומת המקור: 1600104

רנגלר הנתונים של אמזון SageMaker עושה את זה מהיר יותר עבור מדעני נתונים ומהנדסים להכין נתונים ליישומי למידת מכונה (ML) באמצעות ממשק חזותי. בעבר, כאשר יצרת זרימת נתונים של Data Wrangler, אתה יכול לבחור אפשרויות ייצוא שונות כדי לשלב בקלות את זרימת הנתונים בצינור עיבוד הנתונים שלך. Data Wrangler מציע אפשרויות ייצוא ל שירות אחסון פשוט של אמזון (אמזון S3), צינורות SageMaker, ו חנות תכונות SageMaker, או כקוד Python. אפשרויות הייצוא יוצרות מחברת Jupyter ומחייבות אותך להפעיל את הקוד כדי להתחיל עבודת עיבוד בהקלה על ידי עיבוד SageMaker.

אנו נרגשים להכריז על השחרור הכללי של צמתי יעד ותכונת Create Job ב-Data Wrangler. תכונה זו מעניקה לך את היכולת לייצא את כל השינויים שביצעת למערך נתונים לצומת יעד בכמה לחיצות בלבד. זה מאפשר לך ליצור עבודות עיבוד נתונים ולייצא לאמזון S3 אך ורק באמצעות הממשק הוויזואלי מבלי ליצור, להפעיל או לנהל מחברות Jupyter, ובכך לשפר את חוויית הקוד הנמוכה. כדי להדגים תכונה חדשה זו, אנו משתמשים ב- מערך טיטאניק ולהראות כיצד לייצא את ההמרות שלך לצומת יעד.

תנאים מוקדמים

לפני שנלמד כיצד להשתמש בצמתי יעד עם Data Wrangler, אתה כבר אמור להבין כיצד לעשות זאת לגשת ולהתחיל עם Data Wrangler. אתה גם צריך לדעת מה א זרימת נתונים פירושו עם הקשר ל-Data Wrangler וכיצד ליצור אחד על-ידי ייבוא ​​הנתונים שלך ממקורות הנתונים השונים שבהם תומך Data Wrangler.

סקירת פתרונות

שקול את זרימת הנתונים הבאה בשם example-titanic.flow:

  • הוא מייבא את מערך הנתונים של Titanic שלוש פעמים. אתה יכול לראות את הייבוא ​​השונים האלה כסניפים נפרדים בזרימת הנתונים.
  • עבור כל ענף, הוא מיישם קבוצה של טרנספורמציות והדמיות.
  • הוא מצטרף אל הענפים לצומת אחד עם כל הטרנספורמציות וההדמיות.

עם זרימה זו, ייתכן שתרצה לעבד ולשמור חלקים מהנתונים שלך בסניף או מיקום ספציפיים.

בשלבים הבאים, אנו מדגימים כיצד ליצור צמתי יעד, לייצא אותם לאמזון S3, וליצור ולהפעיל עבודת עיבוד.

צור צומת יעד

אתה יכול להשתמש בהליך הבא כדי ליצור צמתי יעד ולייצא אותם לדלי S3:

  1. קבע אילו חלקים בקובץ הזרימה (טרנספורמציות) ברצונך לשמור.
  2. בחר את סימן הפלוס לצד הצמתים המייצגים את התמורות שברצונך לייצא. (אם זה צומת מכווץ, עליך לבחור את סמל האפשרויות (שלוש נקודות) עבור הצומת).
  3. לרחף מעל הוסף יעד.
  4. בחרו אמזון S3.
  5. ציין את השדות כפי שמוצג בצילום המסך הבא.
  6. עבור צומת ההצטרפות השני, בצע את אותם השלבים כדי להוסיף את Amazon S3 כיעד ולציין את השדות.

אתה יכול לחזור על שלבים אלה כמה פעמים שאתה צריך עבור כמה צמתים שאתה רוצה בזרימת הנתונים שלך. מאוחר יותר, אתה בוחר אילו צמתי יעד לכלול בעבודת העיבוד שלך.

הפעל עבודת עיבוד

השתמש בהליך הבא כדי ליצור עבודת עיבוד ולבחור את צומת היעד שאליו ברצונך לייצא:

  1. על זרימת נתונים בחר, בחר צור עבודה.
  2. בעד שם העבודה¸ הזן את שם עבודת הייצוא.
  3. בחר את צמתי היעד שברצונך לייצא.
  4. אופציונלי, ציין את שירות ניהול מפתח AWS (AWS KMS) מקש ARN.

מפתח KMS הוא מפתח קריפטוגרפי שבו אתה יכול להשתמש כדי להגן על הנתונים שלך. למידע נוסף על מפתחות KMS, עיין ב- מדריך מפתח AWS מפתח.

  1. בחרו לאחר מכן, 2. הגדר עבודה.
  2. לחלופין, אתה יכול להגדיר את העבודה בהתאם לצרכים שלך על ידי שינוי סוג המופע או ספירת המופעים, או הוספת תגים כלשהם לשיוך לעבודה.
  3. בחרו הפעלה לנהל את העבודה.

הודעת הצלחה מופיעה כאשר העבודה נוצרה בהצלחה.

ראה את הנתונים הסופיים

לבסוף, תוכל להשתמש בשלבים הבאים כדי להציג את הנתונים המיוצאים:

  1. לאחר יצירת העבודה, בחר בקישור המצורף.

נפתחת כרטיסייה חדשה המציגה את עבודת העיבוד בקונסולת SageMaker.

  1. בסיום העבודה, סקור את הנתונים המיוצאים בקונסולת Amazon S3.

אתה אמור לראות תיקיה חדשה עם שם העבודה שבחרת.

  1. בחר את שם העבודה כדי להציג קובץ CSV (או קבצים מרובים) עם הנתונים הסופיים.

שאלות נפוצות

בחלק זה, אנו עוסקים בכמה שאלות נפוצות לגבי תכונה חדשה זו:

  • מה קרה ללשונית ייצוא? עם תכונה חדשה זו, הסרנו את יצוא כרטיסייה מ-Data Wrangler. אתה עדיין יכול להקל על פונקציונליות הייצוא באמצעות מחברות Jupyter שנוצרו על ידי Data Wrangler מכל צמתים שיצרת בזרימת הנתונים עם השלבים הבאים:
    1. בחר את סימן הפלוס ליד הצומת שברצונך לייצא.
    2. בחרו ייצוא ל.
    3. בחרו Amazon S3 (באמצעות Jupyter Notebook).
    4. הפעל את מחברת Jupyter.
  • כמה צמתי יעדים אני יכול לכלול בעבודה? יש מקסימום 10 יעדים לכל עבודת עיבוד.
  • כמה צמתי יעד יכול להיות לי בקובץ זרימה? אתה יכול לקבל כמה צמתי יעד שתרצה.
  • האם אוכל להוסיף טרנספורמציות אחרי צמתי היעד שלי? לא, הרעיון הוא שצמתי יעד הם צמתים סופניים שאין להם שלבים נוספים לאחר מכן.
  • מהם המקורות הנתמכים שבהם אני יכול להשתמש עם צמתי יעד? נכון לכתיבת שורות אלה, אנו תומכים רק באמזון S3 כמקור יעד. תמיכה בסוגי מקורות יעד נוספים תתווסף בעתיד. אנא צור קשר אם יש אחד ספציפי שאתה רוצה לראות.

<br> סיכום

בפוסט זה, הדגמנו כיצד להשתמש בצמתי היעד החדשים שהושקו כדי ליצור עבודות עיבוד ולשמור את מערכי הנתונים שהשתנו ישירות לאמזון S3 דרך הממשק החזותי של Data Wrangler. עם תכונה נוספת זו, שיפרנו את חוויית הקוד הנמוך מונעת על ידי כלים של Data Wrangler.

כשלבים הבאים, אנו ממליצים לך לנסות את הדוגמה המודגמת בפוסט זה. אם יש לך שאלות או רוצה ללמוד עוד, ראה יצוא או השאירו שאלה בקטע התגובות.


על הכותבים

אלפונסו אוסטין-ריברה הוא מהנדס קצה ב-Amazon SageMaker Data Wrangler. הוא נלהב לבנות חוויות משתמש אינטואיטיביות שמעוררות שמחה. בזמנו הפנוי, אתה יכול למצוא אותו נלחם בכוח המשיכה בחדר כושר לטיפוס צוקים או בחוץ כשהוא מטיס את המל"ט שלו.

פארסה שהבודאגי הוא כותב טכני ב-AWS המתמחה בלמידת מכונה ובינה מלאכותית. הוא כותב את התיעוד הטכני עבור Amazon SageMaker Data Wrangler ו-Amazon SageMaker Feature Store. בזמנו הפנוי הוא נהנה לעשות מדיטציה, להאזין לספרי שמע, להרים משקולות ולצפות בסטנד-אפ. הוא לעולם לא יהיה סטנדאפיסט, אבל לפחות אמא שלו חושבת שהוא מצחיק.

Balaji Tummala הוא מהנדס פיתוח תוכנה באמזון SageMaker. הוא עוזר לתמוך באמזון SageMaker Data Wrangler ונלהב לבנות תוכנה בעלת ביצועים וניתנים להרחבה. מחוץ לעבודה, הוא נהנה לקרוא ספרות ולשחק כדורעף.

ארונפרשת שנקר הוא אדריכל פתרונות מומחים לבינה מלאכותית ולמידת מכונות (AI / ML) עם AWS, המסייע ללקוחות גלובליים לשנות את פתרונות ה- AI שלהם ביעילות וביעילות בענן. בזמנו הפנוי, ארון נהנה לצפות בסרטי מדע בדיוני ולהאזין למוזיקה קלאסית.

מקור: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

בול זמן:

עוד מ בלוג למידת מכונות AWS