הכנת נתונים היא שלב מכריע בכל זרימת עבודה של למידת מכונה (ML), אך היא כרוכה לעתים קרובות במשימות מייגעות וגוזלות זמן. אמזון SageMaker Canvas תומך כעת ביכולות הכנת נתונים מקיפות המופעלות על ידי רנגלר הנתונים של אמזון SageMaker. עם השילוב הזה, SageMaker Canvas מספקת ללקוחות סביבת עבודה ללא קוד מקצה לקצה כדי להכין נתונים, לבנות ולהשתמש במודלים של ML ובסיסים כדי להאיץ את הזמן מהנתונים לתובנות עסקיות. כעת תוכל לגלות ולצבור בקלות נתונים מיותר מ-50 מקורות נתונים, ולחקור ולהכין נתונים באמצעות למעלה מ-300 ניתוחים וטרנספורמציות מובנות בממשק החזותי של SageMaker Canvas. תראה גם ביצועים מהירים יותר עבור טרנספורמציות וניתוחים, וממשק שפה טבעית לחקירה והמרת נתונים עבור ML.
בפוסט זה, אנו מדריכים אותך בתהליך להכנת נתונים לבניית מודלים מקצה לקצה ב- SageMaker Canvas.
סקירת פתרונות
במקרה השימוש שלנו, אנו מקבלים את התפקיד של מקצוען נתונים בחברת שירותים פיננסיים. אנו משתמשים בשני מערכי נתונים לדוגמה כדי לבנות מודל ML החוזה האם הלוואה תוחזר במלואה על ידי הלווה, דבר שהוא חיוני לניהול סיכון האשראי. סביבת ללא קוד של SageMaker Canvas מאפשרת לנו להכין במהירות את הנתונים, להנדס תכונות, לאמן מודל ML ולפרוס את המודל בזרימת עבודה מקצה לקצה, ללא צורך בקידוד.
תנאים מוקדמים
כדי לעקוב אחר הדרכה זו, ודא שיישמת את התנאים המוקדמים כמפורט ב
- הפעל את Amazon SageMaker Canvas. אם אתה כבר משתמש SageMaker Canvas, ודא שאתה להתנתק והתחבר שוב כדי שתוכל להשתמש בתכונה החדשה הזו.
- כדי לייבא נתונים מ- Snowflake, בצע את השלבים מ- הגדר OAuth עבור Snowflake.
הכן נתונים אינטראקטיביים
עם סיום ההגדרה, אנו יכולים כעת ליצור זרימת נתונים כדי לאפשר הכנת נתונים אינטראקטיבית. זרימת הנתונים מספקת טרנספורמציות מובנות והדמיות בזמן אמת כדי לסכסך את הנתונים. השלם את השלבים הבאים:
- צור זרימת נתונים חדשה באמצעות אחת מהשיטות הבאות:
- בחרו רנגלר נתונים, זרימת נתונים, ואז לבחור צור.
- בחר את מערך הנתונים של SageMaker Canvas ובחר צור זרימת נתונים.
- בחרו ייבא נתונים ובחר טבלאי מהרשימה הנפתחת.
- אתה יכול לייבא נתונים ישירות דרך למעלה מ-50 מחברי נתונים כגון שירות אחסון פשוט של אמזון (אמזון S3), אמזונה אתנה, האדום של אמזון, Snowflake ו-Salesforce. בהדרכה זו, נעסוק בייבוא הנתונים שלך ישירות מ- Snowflake.
לחלופין, אתה יכול להעלות את אותו מערך נתונים מהמחשב המקומי שלך. אתה יכול להוריד את מערך הנתונים loans-part-1.csv ו loans-part-2.csv.
- בדף ייבוא נתונים, בחר Snowflake מהרשימה ובחר הוסף חיבור.
- הזן שם לחיבור, בחר OAuth אפשרות מהרשימה הנפתחת של שיטת האימות. הזן את מזהה חשבון Okta שלך ובחר הוסף חיבור.
- אתה תופנה למסך ההתחברות של Okta כדי להזין אישורים של Okta לאימות. לאחר אימות מוצלח, תופנה לדף זרימת הנתונים.
- עיין כדי לאתר את מערך הנתונים של הלוואות ממסד הנתונים של Snowflake
בחר את שני מערכי הנתונים של ההלוואות על ידי גרירה ושחרור שלהם מהצד השמאלי של המסך לימין. שני מערכי הנתונים יתחברו, ויופיע סמל הצטרפות עם סימן קריאה אדום. לחץ עליו, ולאחר מכן בחר עבור שני מערכי הנתונים את id מַפְתֵחַ. השאר את סוג ההצטרפות בתור פנימי. זה אמור להיראות כך:
- בחרו שמור סגור.
- בחרו צור מערך נתונים. תן שם למערך הנתונים.
- נווט לזרימת נתונים, תראה את הדברים הבאים.
- כדי לחקור במהירות את נתוני ההלוואה, בחר קבל תובנות נתונים ובחר את
loan_status
עמודת יעד ו מִיוּן סוג בעיה.
הנוצר דוח איכות נתונים ותובנה מספק נתונים סטטיסטיים מרכזיים, הדמיות וניתוחי חשיבות של תכונות.
- סקור את האזהרות בנושאי איכות נתונים ומחלקות לא מאוזנות כדי להבין ולשפר את מערך הנתונים.
עבור מערך הנתונים במקרה שימוש זה, אתה צריך לצפות לאזהרת עדיפות גבוהה "ציון מהיר של מודל מהיר מאוד", ויעילות מודל נמוכה מאוד על מחלקות מיעוט (טעינה ושוטפת), מה שמצביע על הצורך לנקות ולאזן את הנתונים. מתייחס תיעוד קנבס למידע נוסף על דוח תובנות הנתונים.
עם למעלה מ-300 טרנספורמציות מובנות המופעלות על ידי SageMaker Data Wrangler, SageMaker Canvas מאפשר לך לסכסך במהירות עם נתוני ההלוואה. אתה יכול ללחוץ על הוסף שלב, ודפדף או חפש את הטרנספורמציות הנכונות. עבור מערך נתונים זה, השתמש טיפה חסרה ו טפל בחריגים כדי לנקות נתונים, ולאחר מכן החל קידוד חם אחד, ו הוקטור טקסט כדי ליצור תכונות עבור ML.
צ'אט להכנת נתונים היא יכולת שפה טבעית חדשה המאפשרת ניתוח נתונים אינטואיטיבי על ידי תיאור בקשות באנגלית פשוטה. לדוגמה, אתה יכול לקבל נתונים סטטיסטיים וניתוח מתאם על נתוני ההלוואה באמצעות ביטויים טבעיים. SageMaker Canvas מבין ומפעיל את הפעולות באמצעות אינטראקציות שיחתיות, לוקח את הכנת הנתונים לשלב הבא.
אנו יכולים להשתמש צ'אט להכנת נתונים ושינוי מובנה כדי לאזן את נתוני ההלוואה.
- ראשית, הזן את ההוראות הבאות:
replace “charged off” and “current” in loan_status with “default”
צ'אט להכנת נתונים יוצר קוד למיזוג שתי מחלקות מיעוטים לאחת default
מעמד.
- בחר את המובנה עשן פונקציית transform ליצירת נתונים סינתטיים עבור מחלקת ברירת המחדל.
כעת יש לך עמודת יעד מאוזנת.
- לאחר ניקוי ועיבוד נתוני ההלוואה, צור מחדש את דוח איכות נתונים ותובנה לסקור שיפורים.
אזהרת העדיפות הגבוהה נעלמה, מה שמצביע על שיפור באיכות הנתונים. אתה יכול להוסיף טרנספורמציות נוספות לפי הצורך כדי לשפר את איכות הנתונים לאימון מודלים.
קנה מידה ועיבוד נתונים אוטומטי
כדי להפוך את הכנת הנתונים לאוטומטיים, אתה יכול להפעיל או לתזמן את זרימת העבודה כולה כעבודת עיבוד Spark מבוזרת כדי לעבד את כל מערך הנתונים או כל מערכי נתונים חדשים בקנה מידה.
- בתוך זרימת הנתונים, הוסף צומת יעד של Amazon S3.
- הפעל עבודת SageMaker Processing על ידי בחירה צור עבודה.
- הגדר את עבודת העיבוד ובחר צור, המאפשר לזרימה לפעול על מאות GBs של נתונים ללא דגימה.
ניתן לשלב את זרימות הנתונים בצינורות MLOps מקצה לקצה כדי להפוך את מחזור החיים של ML לאוטומטי. זרימות נתונים יכולות להזין למחברות של SageMaker Studio כשלב עיבוד הנתונים בצנרת של SageMaker, או לפריסת צינור מסקנות של SageMaker. זה מאפשר אוטומציה של הזרימה מהכנת הנתונים ועד להדרכה ואירוח של SageMaker.
בנה ופריסה את המודל ב- SageMaker Canvas
לאחר הכנת הנתונים, נוכל לייצא בצורה חלקה את מערך הנתונים הסופי אל SageMaker Canvas כדי לבנות, לאמן ולפרוס מודל חיזוי לתשלום הלוואה.
- בחרו צור מודל בצומת האחרון של זרימת הנתונים או בחלונית הצמתים.
פעולה זו מייצאת את מערך הנתונים ומשיקה את זרימת העבודה המודרכת של יצירת מודלים.
- תן שם למערך הנתונים המיוצא ובחר יצוא.
- בחרו צור מודל מההודעה.
- תן שם לדגם, בחר ניתוח חיזוי, ולבחור צור.
זה יפנה אותך לדף בניית המודל.
- המשך עם חוויית בניית המודל של SageMaker Canvas על ידי בחירת עמודת היעד וסוג הדגם, ולאחר מכן בחר בנייה מהירה or מבנה סטנדרטי.
למידע נוסף על חוויית בניית המודל, עיין ב לבנות מודל.
בסיום ההכשרה, תוכל להשתמש במודל כדי לחזות נתונים חדשים או לפרוס אותם. מתייחס פרוס דגמי ML שנבנו ב- Amazon SageMaker Canvas לנקודות קצה של Amazon SageMaker בזמן אמת למידע נוסף על פריסת מודל מ- SageMaker Canvas.
סיכום
בפוסט זה, הדגמנו את היכולות מקצה לקצה של SageMaker Canvas על ידי נטילת התפקיד של איש מקצוע בתחום הנתונים הפיננסיים המכין נתונים לניבוי תשלום ההלוואה, מופעל על ידי SageMaker Data Wrangler. הכנת הנתונים האינטראקטיביים אפשרה ניקוי, שינוי וניתוח מהיר של נתוני ההלוואה כדי להנדס תכונות אינפורמטיביות. על ידי הסרת מורכבויות הקידוד, SageMaker Canvas אפשרה לנו לבצע פעולות חוזרות במהירות כדי ליצור מערך הדרכה איכותי. זרימת עבודה מואצת זו מובילה ישירות לבנייה, הדרכה ופריסה של מודל ML ביצועי להשפעה עסקית. עם הכנת הנתונים המקיפה והניסיון המאוחד שלו מנתונים לתובנות, SageMaker Canvas מעניק לך כוח לשפר את תוצאות ה-ML שלך. למידע נוסף על איך להאיץ את הנסיעות שלך מנתונים לתובנות עסקיות, ראה יום הטבילה של SageMaker Canvas ו מדריך למשתמש של AWS.
על המחברים
ד"ר צ'אנגשה מא הוא מומחה AI/ML ב-AWS. היא טכנולוגית בעלת תואר שלישי במדעי המחשב, תואר שני בפסיכולוגיית חינוך וניסיון של שנים במדעי נתונים וייעוץ עצמאי ב-AI/ML. היא נלהבת לחקור גישות מתודולוגיות לאינטליגנציה של מכונה ואינטליגנציה אנושית. מחוץ לעבודה, היא אוהבת לטייל, לבשל, לצוד אוכל ולבלות עם חברים ומשפחות.
אג'אי גובינדראם הוא אדריכל פתרונות בכיר ב-AWS. הוא עובד עם לקוחות אסטרטגיים המשתמשים ב-AI/ML כדי לפתור בעיות עסקיות מורכבות. הניסיון שלו טמון במתן הכוונה טכנית כמו גם סיוע בתכנון לפריסות של יישומי AI/ML צנועות עד בקנה מידה גדול. הידע שלו נע מארכיטקטורת יישומים ועד ביג דאטה, אנליטיקה ולמידת מכונה. הוא נהנה להאזין למוזיקה בזמן מנוחה, להתנסות בחיק הטבע ולבלות עם יקיריו.
הואנג נגויין הוא מנהל מוצר אב ב-AWS. היא מובילה את הכנת הנתונים של ML עבור SageMaker Canvas ו- SageMaker Data Wrangler, עם 15 שנות ניסיון בבניית מוצרים ממוקדי לקוח ומונחי נתונים.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :יש ל
- :הוא
- $ למעלה
- 100
- 12
- 13
- 14
- שנים 15
- 15%
- 300
- 50
- 8
- a
- יכול
- אודות
- להאיץ
- מוּאָץ
- חֶשְׁבּוֹן
- פעולות
- להוסיף
- לְקַבֵּץ
- AI / ML
- מותר
- מאפשר
- לאורך
- כְּבָר
- גם
- אמזון בעברית
- אמזון SageMaker
- אמזון SageMaker Canvas
- אמזון שירותי אינטרנט
- an
- מנתח
- אנליזה
- ניתוח
- ניתוח
- ו
- כל
- לְהוֹפִיעַ
- בקשה
- גישות
- ארכיטקטורה
- ARE
- AS
- סיוע
- At
- לאמת
- אימות
- אוטומטי
- אוטומציה
- AWS
- בחזרה
- איזון
- מאוזן
- BE
- גָדוֹל
- נתונים גדולים
- סיכה
- לוֹוֶה
- שניהם
- לִבנוֹת
- בִּניָן
- נבנה
- מובנה
- עסקים
- השפעה עסקית
- by
- CAN
- יכול לקבל
- בד
- יכולות
- יכולת
- מקרה
- טעון
- בחרו
- בחירה
- בכיתה
- כיתות
- לְנַקוֹת
- ניקוי
- קליק
- קוד
- סִמוּל
- טור
- חברה
- להשלים
- מורכב
- מורכבות
- מַקִיף
- המחשב
- מדעי מחשב
- לְחַבֵּר
- הקשר
- ייעוץ
- שיחה
- בישול
- מתאם
- לכסות
- לִיצוֹר
- יצירה
- אישורים
- אשראי
- מכריע
- נוֹכְחִי
- לקוחות
- נתונים
- ניתוח נתונים
- הכנת נתונים
- עיבוד נתונים
- איכות נתונים
- מדע נתונים
- נתונים מונחים
- מערכי נתונים
- בְּרִירַת מֶחדָל
- תואר
- מופגן
- לפרוס
- פריסה
- פריסות
- המתאר
- עיצוב
- יעד
- מְפוֹרָט
- כיוון
- ישירות
- לגלות
- מופץ
- מטה
- להורדה
- ירידה
- נשמט
- בקלות
- חינוך
- יעילות
- מעצים
- לאפשר
- מופעל
- מאפשר
- מה שמאפשר
- מקצה לקצה
- מהנדס
- אנגלית
- להגביר את
- לְהַבטִיחַ
- זן
- שלם
- סביבה
- Ether (ETH)
- דוגמה
- לצפות
- ניסיון
- התנסות
- לחקור
- יצוא
- היצוא
- משפחות
- מהר יותר
- מאפיין
- תכונות
- סופי
- כספי
- מידע פיננסי
- שירותים פיננסיים
- חברת שירותים פיננסיים
- תזרים
- זורם
- לעקוב
- הבא
- מזון
- בעד
- יסודות
- טרי
- חברים
- החל מ-
- לגמרי
- פונקציה
- נוסף
- ליצור
- נוצר
- מייצר
- לקבל
- לתת
- מוּדרָך
- יש
- he
- גָבוֹהַ
- באיכות גבוהה
- טיולים
- שֶׁלוֹ
- אירוח
- איך
- איך
- HTML
- http
- HTTPS
- בן אנוש
- האינטליגנציה האנושית
- מאות
- ציד
- ID
- if
- חוסר איזון
- טְבִילָה
- פְּגִיעָה
- יושם
- לייבא
- חשיבות
- יבוא
- לשפר
- משופר
- שיפורים
- in
- התאגדה
- עצמאי
- המציין
- מידע
- אִינפוֹרמָטִיבִי
- תובנה
- תובנות
- הוראות
- השתלבות
- מוֹדִיעִין
- יחסי גומלין
- אינטראקטיבי
- מִמְשָׁק
- אל תוך
- אינטואיטיבי
- כרוך
- בעיות
- IT
- שֶׁלָה
- עבודה
- להצטרף
- מסעות
- jpg
- מפתח
- ידע
- שפה
- בקנה מידה גדול
- אחרון
- השקות
- מוביל
- מוביל
- לִלמוֹד
- למידה
- יציאה
- עזבו
- רמה
- שקרים
- מעגל החיים
- כמו
- רשימה
- האזנה
- להלוות
- הלוואות
- מקומי
- היכנס
- התחבר
- נראה
- נראה כמו
- אהבתי
- אוהב
- נמוך
- מכונה
- למידת מכונה
- לעשות
- מנהל
- ניהול
- סימן
- מאסטר
- למזג
- שיטה
- שיטות
- מיעוט
- ML
- MLOps
- מודל
- מודלים
- צנוע
- יותר
- כלי נגינה
- שם
- טבעי
- שפה טבעית
- צורך
- נחוץ
- חדש
- תכונה חדשה
- הבא
- צומת
- צמתים
- מחשבים ניידים
- הודעה
- עַכשָׁיו
- oauth
- of
- כבוי
- לעתים קרובות
- OKTA
- on
- ONE
- יחידות
- אפשרות
- or
- שלנו
- תוצאות
- בחוץ
- בחוץ
- יותר
- עמוד
- זגוגית
- לוהט
- תשלום
- ביצועים
- דוקטורט
- ביטויים
- צינור
- מישור
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- הודעה
- מופעל
- לחזות
- נבואה
- תחזית
- הכנה
- להכין
- העריכה
- תנאים מוקדמים
- עדיפות
- בעיה
- בעיות
- תהליך
- תהליך
- המוצר
- מנהל מוצר
- מוצרים
- מקצועי
- מספק
- מתן
- פסיכולוגיה
- איכות
- מהירות
- מהר
- זמן אמת
- Red
- הפניה
- להתייחס
- הסרת
- לדווח
- בקשות
- מנוחה
- סקירה
- תקין
- הסיכון
- תפקיד
- הפעלה
- פועל
- בעל חכמים
- SageMaker Inference
- כוח מכירות
- אותו
- סולם
- לוח זמנים
- מדע
- מסך
- בצורה חלקה
- חיפוש
- לִרְאוֹת
- בחר
- לחצני מצוקה לפנסיונרים
- שירותים
- חברת שירותים
- התקנה
- היא
- צריך
- צד
- פָּשׁוּט
- פתרונות
- לפתור
- מקורות
- לעורר
- מומחה
- הוצאה
- סטטיסטיקה
- שלב
- צעדים
- אחסון
- אסטרטגי
- סטודיו
- מוצלח
- כזה
- תומך
- בטוח
- סמל
- סינטטי
- נתונים סינתטיים
- נטילת
- יעד
- משימות
- טכני
- טכנולוג
- זֶה
- השמיים
- אותם
- אז
- זֶה
- דרך
- זמן
- דורש זמן רב
- ל
- רכבת
- הדרכה
- לשנות
- טרנספורמציות
- הפיכה
- התמרות
- שתיים
- סוג
- להבין
- מבין
- מאוחד
- us
- להשתמש
- במקרה להשתמש
- משתמש
- באמצעות
- מאוד
- חזותי
- ללכת
- בהדרכה
- אזהרה
- we
- אינטרנט
- שירותי אינטרנט
- טוֹב
- אם
- אשר
- בזמן
- מי
- כל
- יצטרך
- עם
- לְלֹא
- תיק עבודות
- זרימת עבודה
- עובד
- סדנות
- היה
- שנים
- עוד
- אתה
- זפירנט