5 סיבות למה אתה צריך נתונים סינתטיים

הועלה מחדש על ידי אפלטון

עוקב: 0

5 סיבות מדוע אתה צריך נתונים סינתטיים
נתונים סינתטיים שנוצרו מ קובריק

כדי להכשיר מודל למידת מכונה, אתה צריך נתונים. משימות מדעי הנתונים אינן בדרך כלל תחרות Kaggle שבה יש לך מערך נתונים גדול ונחמד שמגיע עם תווית מראש. לפעמים אתה צריך לאסוף, לארגן ולנקות את הנתונים שלך. תהליך זה של איסוף ותיוג נתונים בעולם האמיתי עלול להיות גוזל זמן רב, מסורבל, יקר, לא מדויק ולפעמים מסוכן. יתר על כן, בסופו של תהליך זה, אתה יכול לסיים עם הנתונים שנתקלת בהם בעולם האמיתי לא בהכרח הנתונים שאתה רוצה מבחינת איכות, גיוון (למשל, חוסר איזון מעמדי) וכמות. להלן בעיות נפוצות שאתה יכול להיתקל בהן בעת עבודה עם נתונים אמיתיים:

איסוף ותיוג נתונים אמיתיים אינם ניתנים להרחבה
תיוג ידני של נתונים אמיתיים יכול לפעמים להיות בלתי אפשרי
לנתונים אמיתיים יש בעיות פרטיות ובטיחות
נתונים אמיתיים אינם ניתנים לתכנות
מודל שאומן אך ורק על נתונים אמיתיים אינו מספיק ביצועי (למשל, מהירות פיתוח איטית)

למרבה המזל, ניתן לפתור בעיות כמו אלה באמצעות נתונים סינתטיים. אולי אתם תוהים, מה זה נתונים סינתטיים? ניתן להגדיר נתונים סינתטיים כנתונים שנוצרים באופן מלאכותי אשר נוצרים בדרך כלל באמצעות אלגוריתמים המדמים תהליכים בעולם האמיתי, מהתנהגותם של משתמשי דרך אחרים וכלה בהתנהגות האור בעת אינטראקציה עם משטחים. פוסט זה עוסק במגבלות של נתונים מהעולם האמיתי, וכיצד נתונים סינתטיים יכולים לעזור להתגבר על הבעיות הללו ולשפר את ביצועי המודל.

עבור מערכי נתונים קטנים, בדרך כלל ניתן לאסוף נתונים ולתייג אותם באופן ידני; עם זאת, משימות רבות של למידת מכונה מורכבות דורשות מערכי נתונים מסיביים להדרכה. לדוגמה, דגמים שהוכשרו ליישומי רכב אוטונומי זקוקים לכמויות גדולות של נתונים שנאספו מחיישנים המחוברים למכוניות או רחפנים. תהליך איסוף הנתונים הזה איטי ויכול להימשך חודשים ואף שנים. ברגע שהנתונים הגולמיים נאספים, הם חייבים להיות מוערים ידנית על ידי בני אדם, וזה גם יקר וגוזל זמן. יתר על כן, אין ערובה שהנתונים המסומנים שיחזרו יהיו מועילים כנתוני הדרכה, מכיוון שהם עשויים שלא להכיל דוגמאות המודיעות על פערי הידע הנוכחיים של המודל.

[תוכן מוטבע][תוכן מוטבע]

תיוג נתונים אלה כרוך לעתים קרובות בני אדם בציור ידני של תוויות על גבי נתוני חיישנים. זה מאוד יקר מכיוון שצוותי ML בשכר גבוה מבלים לעתים קרובות חלק עצום מזמנם לוודא שהתוויות נכונות ושולחים טעויות בחזרה למתייגים. נקודת החוזק העיקרית של נתונים סינתטיים היא שאתה יכול ליצור כמה נתונים עם תווית מושלמת שתרצה. כל מה שאתה צריך הוא דרך לייצר נתונים סינתטיים איכותיים.

תוכנת קוד פתוח להפקת נתונים סינתטיים: קובריק (סרטוני ריבוי אובייקטים עם מסכות פילוח, מפות עומק וזרימה אופטית) ו SDV (נתונים טבלאיים, יחסיים וסדרות זמן).

חלק מהחברות (מבין רבות) שמוכרות מוצרים או בונות פלטפורמות שיכולות לייצר נתונים סינתטיים כוללות Gretel.ai (מערכי נתונים סינתטיים המבטיחים את הפרטיות של נתונים אמיתיים), NVIDIA (אומניברס), ו דומיין מקביל (רכבים אוטונומיים). לעוד, ראה את רשימת חברות הנתונים הסינטטיים לשנת 2022.

5 סיבות מדוע אתה צריך נתונים סינתטיים
תמונה מתוך דומיין מקביל

ישנם נתונים שבני אדם אינם יכולים לפרש ולתייג במלואם. להלן כמה מקרי שימוש שבהם נתונים סינתטיים הם האפשרות היחידה:

הערכה מדויקת של עומק ו זרימה אופטית מתמונות בודדות
אפליקציות לנהיגה עצמית המשתמשות בנתוני רדאר שאינם גלויים לעין האנושית
יצירת זיופים עמוקים שניתן להשתמש בהם לבדיקת מערכות זיהוי פנים

5 סיבות מדוע אתה צריך נתונים סינתטיים
תמונה על ידי מייקל גלרניק

נתונים סינתטיים שימושיים ביותר עבור יישומים בתחומים שבהם אינך יכול להשיג בקלות נתונים אמיתיים. זה כולל כמה סוגים של נתוני תאונות דרכים ואת רוב סוגי הנתונים הבריאותיים שיש להם הגבלות פרטיות (למשל, רישומי בריאות אלקטרוניים). בשנים האחרונות, חוקרי שירותי בריאות התעניינו בניבוי פרפור פרוזדורים (קצב לב לא סדיר) באמצעות אותות ECG ו-PPG. פיתוח גלאי הפרעות קצב הוא לא רק מאתגר מכיוון שהביאור של אותות אלו מייגע ויקר, אלא גם בגלל מגבלות פרטיות. זו אחת הסיבות לכך שיש מחקר בהדמיית אותות אלו.

חשוב להדגיש שאיסוף נתונים אמיתיים לא רק לוקח זמן ואנרגיה, אלא יכול להיות מסוכן. אחת מבעיות הליבה עם יישומים רובוטיים כמו מכוניות בנהיגה עצמית היא שהם יישומים פיזיים של למידת מכונה. אתה לא יכול לפרוס מודל לא בטוח בעולם האמיתי ולקרוע בגלל מחסור בנתונים רלוונטיים. הגדלת מערך נתונים עם נתונים סינתטיים יכולה לעזור למודלים להימנע מבעיות אלו.

להלן כמה חברות המשתמשות בנתונים סינתטיים כדי לשפר את בטיחות האפליקציות: טויוטה, Waymo, ו שיוט.

5 סיבות מדוע אתה צריך נתונים סינתטיים
תמונה מתוך דומיין מקביל

תמונה סינתטית של ילד חסום על אופניים מגיח מאחורי אוטובוס בית ספר ורוכב על אופניים מעבר לרחוב בסביבה פרברית בסגנון קליפורניה.

יישומי רכב אוטונומיים עוסקים לרוב באירועים "לא שכיחים" יחסית (ביחס לתנאי נהיגה רגילים) כמו הולכי רגל בלילה או רוכבי אופניים הרוכבים באמצע הכביש. מודלים זקוקים לרוב למאות אלפי או אפילו מיליוני דוגמאות כדי ללמוד תרחיש. בעיה מרכזית אחת היא שייתכן שהנתונים מהעולם האמיתי שנאספו אינם מה שאתה מחפש מבחינת איכות, גיוון (למשל, חוסר איזון בכיתה, תנאי מזג אוויר, מיקום) וכמות. בעיה נוספת היא שעבור מכוניות ורובוטים בנהיגה עצמית, אתה לא תמיד יודע אילו נתונים אתה צריך בניגוד למשימות למידת מכונה מסורתיות עם מערכי נתונים קבועים ומדדים קבועים. בעוד כמה טכניקות הגדלת נתונים שמשנות תמונות באופן שיטתי או אקראי מועילות, טכניקות אלה יכולות להציג את הבעיות שלהם.

כאן נכנסים לתמונה נתונים סינתטיים. ממשקי API ליצירת נתונים סינתטיים מאפשרים לך להנדס מערכי נתונים. ממשקי API אלה יכולים לחסוך לך הרבה כסף מכיוון שזה מאוד יקר לבנות רובוטים ולאסוף נתונים בעולם האמיתי. הרבה יותר טוב ומהיר לנסות לייצר נתונים ולהבין את העקרונות ההנדסיים באמצעות יצירת נתונים סינתטיים.

להלן דוגמאות המדגישות כיצד נתונים סינתטיים הניתנים לתכנות עוזרים למודלים ללמוד: מניעת עסקאות הונאה (אמריקן אקספרס), זיהוי טוב יותר של רוכבי אופניים (דומיין מקביל), ו ניתוח וסקירה של ניתוח (Hutom.io).

5 סיבות מדוע אתה צריך נתונים סינתטיים
שלבי מחזור פיתוח המודל | תמונה מ ז'ול ס דמג'י

בתעשייה, יש הרבה גורמים המשפיעים על הכדאיות/ביצועים של פרויקט למידת מכונה גם בפיתוח וגם בייצור (למשל, רכישת נתונים, הערות, אימון מודלים, קנה מידה, פריסה, ניטור, אימון מחדש של מודל ומהירות פיתוח). לאחרונה, 18 מהנדסי למידת מכונה השתתפו במחקר ראיונות שמטרתה הייתה להבין שיטות ואתגרים נפוצים של MLOps בין ארגונים ויישומים (למשל, רכבים אוטונומיים, חומרת מחשב, קמעונאות, מודעות, מערכות ממליצים וכו'). אחת המסקנות של המחקר הייתה החשיבות של מהירות הפיתוח שניתן להגדיר באופן גס כיכולת ליצור אבטיפוס מהיר ולחזור על רעיונות.

גורם אחד המשפיע על מהירות הפיתוח הוא הצורך בנתונים כדי לבצע אימון והערכה ראשוניים של המודל כמו גם הסבה תכופה לדגם עקב ירידה בביצועי המודל עם הזמן עקב סחיפה של נתונים, סחיפה של קונספט, או אפילו הטיית אימון-הגשה.

5 סיבות מדוע אתה צריך נתונים סינתטיים
תמונה מתוך כנראה AI

המחקר גם דיווח שצורך זה הוביל כמה ארגונים להקים צוות לתיוג נתונים חיים לעתים קרובות. זה יקר, גוזל זמן ומגביל את יכולתו של ארגון להכשיר מודלים מחדש בתדירות גבוהה.

5 סיבות מדוע אתה צריך נתונים סינתטיים
תמונה מתוך Gretel.ai

שימו לב, דיאגרמה זו אינה מכסה כיצד ניתן להשתמש בנתונים סינתטיים גם עבור דברים כמו בדיקת MLOps אצל ממליצים.

לנתונים סינתטיים יש פוטנציאל לשימוש עם נתונים מהעולם האמיתי במחזור החיים של למידת מכונה (בתמונה למעלה) כדי לעזור לארגונים לשמור על ביצועים ארוכים יותר של המודלים שלהם.

יצירת נתונים סינתטיים הופכת נפוץ יותר ויותר בתהליכי עבודה של למידת מכונה. למעשה, גרטנר צופה שעד 2030, נתונים סינתטיים ישמשו הרבה יותר מנתונים מהעולם האמיתי כדי להכשיר מודלים של למידת מכונה. אם יש לך שאלות או מחשבות על הפוסט הזה, אל תהסס לפנות בתגובות למטה או דרך טויטר.

מייקל גלרניק הוא איש מקצוע למדעי הנתונים ועובד בקשרי מפתחים באנסיקאל.