איזון הנתונים שלך ללמידת מכונה עם Amazon SageMaker Data Wrangler

צומת המקור: 1600102

רנגלר הנתונים של אמזון SageMaker היא יכולת חדשה של אמזון SageMaker מה שהופך את זה למהיר יותר עבור מדעני נתונים ומהנדסים להכין נתונים ליישומי למידת מכונה (ML) באמצעות ממשק חזותי. הוא מכיל למעלה מ-300 טרנספורמציות נתונים מובנות כך שתוכל לנרמל, להפוך ולשלב תכונות במהירות מבלי לכתוב כל קוד.

היום, אנו נרגשים להכריז על טרנספורמציות חדשות המאפשרות לך לאזן את מערכי הנתונים שלך בקלות וביעילות לאימון מודלים של ML. אנו מדגימים כיצד השינויים הללו פועלים בפוסט זה.

מפעילי איזון חדשים

מפעילי האיזון החדשים שהוכרזו מקובצים תחת נתוני איזון סוג טרנספורמציה ב- הוסף שינוי שִׁמשָׁה.

נכון לעכשיו, אופרטורי הטרנספורמציה תומכים רק בבעיות סיווג בינארי. בבעיות סיווג בינארי, על המסווג מוטלת המשימה לסווג כל מדגם לאחת משתי מחלקות. כאשר מספר הדגימות במחלקת הרוב (גדולה יותר) גדול במידה ניכרת ממספר הדגימות במחלקת המיעוט (הקטנה יותר), מערך הנתונים נחשב לא מאוזן. הטיה זו מאתגרת עבור אלגוריתמים ומסווגים של ML מכיוון שתהליך האימון נוטה להיות מוטה כלפי מעמד הרוב.

תוכניות איזון, אשר מגדילות את הנתונים כדי להיות מאוזנים יותר לפני אימון המסווג, הוצעו כדי להתמודד עם אתגר זה. שיטות האיזון הפשוטות ביותר הן דגימת יתר של מחלקת המיעוט על ידי שכפול דגימות מיעוט או דגימת חסר של מחלקת הרוב על ידי הסרת דגימות הרוב. הרעיון של הוספת דגימות מיעוטים סינתטיים לנתונים טבלאיים הוצע לראשונה בטכניקת דגימת יתר של מיעוט סינתטי (SMOTE), שבה דגימות מיעוט סינתטיות נוצרות על ידי אינטרפולציה של זוגות של נקודות המיעוט המקוריות. SMOTE ותכניות איזון אחרות נחקרו באופן אמפירי והוכחו כמשפרות ביצועי חיזוי בתרחישים שונים, לפי הפרסום ל-SMOTE, או לא ל-SMOTE.

Data Wrangler תומך כעת במפעילי האיזון הבאים כחלק מה- נתוני איזון שינוי צורה:

  • דגימת יתר אקראית – שכפול אקראי של דגימות מיעוטים
  • תת-דגימה אקראית - הסר אקראית מדגמי רוב
  • עשן - צור דגימות מיעוט סינתטיות על ידי אינטרפולציה של דגימות מיעוט אמיתיות

כעת נדון בפירוט במפעילי האיזון השונים.

דגימת יתר אקראית

דגימת יתר אקראית כוללת בחירת דוגמאות אקראיות מכיתת המיעוט עם תחליף והשלמה של נתוני ההדרכה במספר עותקים של מופע זה. לכן, ייתכן שמופע בודד ייבחר מספר פעמים. עם ה אַקרַאִי דגימת יתר סוג טרנספורמציה, Data Wrangler מבצע דגימת יתר אוטומטית של מחלקת המיעוטים עבורך על ידי שכפול דגימות המיעוטים במערך הנתונים שלך.

תת מדגם אקראי

תת דגימה אקראית היא ההפך מדגימת יתר אקראית. שיטה זו מבקשת לבחור ולהסיר דגימות באופן אקראי ממחלקת הרוב, וכתוצאה מכך להפחית את מספר הדוגמאות במחלקת הרוב בנתונים שעברו טרנספורמציה. ה אַקרַאִי תת דגימה סוג הטרנספורמציה מאפשר ל-Data Wrangler לבצע תת-דגימה אוטומטית של מחלקת הרוב עבורך על ידי הסרת דגימות הרוב במערך הנתונים שלך.

עשן

ב-SMOTE, דגימות מיעוט סינתטיות מתווספות לנתונים כדי להשיג את היחס הרצוי בין דגימות הרוב והמיעוט. הדגימות הסינתטיות נוצרות על ידי אינטרפולציה של זוגות של נקודות המיעוט המקוריות. ה עשן transform תומך באיזון מערכי נתונים כולל תכונות מספריות ולא מספריות. תכונות מספריות משולבות לפי ממוצע משוקלל. עם זאת, אינך יכול להחיל אינטרפולציה ממוצעת משוקללת על תכונות שאינן מספריות - זה בלתי אפשרי לבצע ממוצע “dog” ו “cat” לדוגמה. במקום זאת, מאפיינים לא מספריים מועתקים מכל אחד מדגמי המיעוטים המקוריים בהתאם למשקל הממוצע.

לדוגמה, שקול שתי דוגמאות, A ו-B:

A = [1, 2, "dog", "carnivore"]
B = [0, 0, "cow", "herbivore"]

נניח שהדגימות עוברות אינטרפולציה עם משקלים 0.3 עבור מדגם A ו-0.7 עבור מדגם B. לכן, השדות המספריים מוערכים עם משקלים אלה כדי להניב 0.3 ו-0.6, בהתאמה. השדה הבא מלא ב “dog” עם הסתברות 0.3 ו “cow” עם הסתברות 0.7. באופן דומה, הבא שווה “carnivore” עם הסתברות 0.3 ו “herbivore” עם הסתברות 0.7. ההעתקה האקראית נעשית באופן עצמאי עבור כל תכונה, כך שדוגמה C להלן היא תוצאה אפשרית:

C = [0.3, 0.6, "dog", "herbivore"]

דוגמה זו מדגימה כיצד תהליך האינטרפולציה עלול לגרום לדגימות סינתטיות לא מציאותיות, כגון כלב אוכל עשב. זה נפוץ יותר עם תכונות קטגוריות אבל יכול להתרחש גם בתכונות מספריות. למרות שכמה דוגמאות סינתטיות עשויות להיות לא מציאותיות, SMOTE עדיין יכול לשפר את ביצועי הסיווג.

כדי ליצור דגימות ריאליסטיות יותר באופן היוריסטי, SMOTE משלב רק זוגות קרובים במרחב התכונות. מבחינה טכנית, כל דגימה עוברת אינטרפולציה רק ​​עם השכנים הקרובים ביותר ל-k, כאשר הערך המשותף ל-k הוא 5. ביישום שלנו של SMOTE, רק התכונות המספריות משמשות לחישוב המרחקים בין נקודות (המרחקים משמשים לקביעת השכונה של כל דגימה). מקובל לנרמל את התכונות המספריות לפני חישוב מרחקים. שימו לב שהתכונות המספריות מנורמלות רק לצורך חישוב המרחק; התכונות המשולבות המתקבלות אינן מנורמלות.

בואו נאזן כעת את מערך נתונים למבוגרים (הידוע גם בשם מערך הנתונים של Census Income) באמצעות הטרנספורמציה המובנית של SMOTE שסופקה על ידי Data Wrangler. מערך נתונים רב-משתני זה כולל שש תכונות מספריות ושמונה תכונות מחרוזות. מטרת מערך הנתונים היא משימת סיווג בינארי כדי לחזות אם ההכנסה של אדם עולה על 50,000 דולר לשנה או לא בהתבסס על נתוני מפקד האוכלוסין.

אתה יכול גם לראות את התפלגות השיעורים בצורה ויזואלית על ידי יצירת היסטוגרמה באמצעות ה סוג ניתוח היסטוגרמה ב-Data Wrangler. התפלגות היעד לא מאוזנת ויחס הרשומות עם >50K ל <=50K הוא בערך 1:4.

אנחנו יכולים לאזן את הנתונים האלה באמצעות עשן מפעיל שנמצא תחת נתוני איזון הפוך ב-Data Wrangler עם השלבים הבאים:

  1. לבחור income בתור עמודת היעד.

אנו רוצים שהתפלגות העמודה הזו תהיה מאוזנת יותר.

  1. הגדר את היחס הרצוי ל 0.66.

לכן, היחס בין מספר דגימות המיעוט והרוב הוא 2:3 (במקום היחס הגולמי של 1:4).

  1. לבחור עשן בתור הטרנספורמציה לשימוש.
  2. השאר את ערכי ברירת המחדל עבור מספר שכנים לממוצע והאם לנרמל או לא.
  3. לבחור תצוגה מקדימה כדי לקבל תצוגה מקדימה של השינוי המיושם ולבחור להוסיף כדי להוסיף את ההמרה לזרימת הנתונים שלך.

כעת אנו יכולים ליצור היסטוגרמה חדשה בדומה למה שעשינו קודם כדי לראות את ההתפלגות המיושרת מחדש של המחלקות. האיור הבא מציג את ההיסטוגרמה של income עמודה לאחר איזון מערך הנתונים. התפלגות הדגימות היא כעת 3:2, כפי שהיה מיועד.

כעת אנו יכולים לייצא את הנתונים המאוזנים החדשים הללו ולהכשיר עליהם מסווג, מה שיכול להניב איכות חיזוי מעולה.

סיכום

בפוסט זה, הדגמנו כיצד לאזן נתוני סיווג בינאריים לא מאוזנים באמצעות Data Wrangler. Data Wrangler מציע שלושה מפעילי איזון: תת-דגימה אקראית, דגימת יתר אקראית ו-SMOTE כדי לאזן מחדש נתונים במערך הנתונים הלא מאוזנים שלך. כל שלוש השיטות המוצעות על ידי Data Wrangler תומכות בנתונים רב-מודאליים, כולל תכונות מספריות ולא מספריות.

כצעדים הבאים, אנו ממליצים לשכפל את הדוגמה בפוסט זה בזרימת הנתונים של Data Wrangler כדי לראות מה דנו בפעולה. אם אתה חדש ב-Data Wrangler או סטודיו SageMaker, מתייחס התחל לעבוד עם Data Wrangler. אם יש לך שאלות כלשהן הקשורות לפוסט הזה, אנא הוסף אותה בקטע התגובות.


על הכותבים

יותם אלאור הוא מדען יישומי בכיר באמזון SageMaker. תחומי המחקר שלו הם בלמידת מכונה, במיוחד עבור נתונים טבלאיים.

ארונפרשת שנקר הוא אדריכל פתרונות מומחים לבינה מלאכותית ולמידת מכונות (AI / ML) עם AWS, המסייע ללקוחות גלובליים לשנות את פתרונות ה- AI שלהם ביעילות וביעילות בענן. בזמנו הפנוי, ארון נהנה לצפות בסרטי מדע בדיוני ולהאזין למוזיקה קלאסית.

מקור: https://aws.amazon.com/blogs/machine-learning/balance-your-data-for-machine-learning-with-amazon-sagemaker-data-wrangler/

בול זמן:

עוד מ בלוג למידת מכונות AWS