אל תיגע במערך נתונים מבלי לשאול את 10 השאלות הללו
בחירת מערך הנתונים הנכון היא קריטית להצלחת פרויקט הבינה המלאכותית שלך.
By Sandeep Uttamchandani, Ph.D., גם בונה מוצר/תוכנה (סמנכ"ל Engg) וגם מוביל בתפעול יוזמות נתונים/AI (CDO) ברחבי הארגון
נתונים הם הלב של מוצר בינה מלאכותית. ישנו דגש הולך וגובר על כוונון הנתונים במקום כוונון המודלים - שטבע אנדרו נג בתור AI ממוקד נתונים. מניסיוני, ניתן לחזות את ההצלחה או הכישלון של פרויקט AI על ידי מערכי הנתונים שבהם נעשה שימוש.
אם אתה מדען נתונים/מהנדס בינה מלאכותית המעוניין לבנות מודל חדש או מהנדס נתונים שעובד על בניית צינורות עבור פרויקט בינה מלאכותית, עבור כל מערך נתונים שאתה נמצא ברשימה הקצרה, שאל את השאלות הבאות כדי למנוע כאבי ראש והחמצת ציפיות בהמשך מחזור החיים של הבינה המלאכותית.
1. האם המשמעות של תכונות מערך הנתונים מתועדת?
לפני עידן הביג דאטה, הנתונים אוצרו לפני שנוספו למחסן הנתונים המרכזי. זה ידוע בשם schema-on-write. כיום, הגישה עם אגמי נתונים היא תחילה לצבור את הנתונים ולאחר מכן להסיק את המשמעות של הנתונים בזמן הצריכה. זה ידוע בשם schema-on-read.
תכונות נתונים מתועדות רק לעתים רחוקות כהלכה או מתעדכנות. אמנם ניתן לראות את התיעוד כצעד שמאט את הפרויקט, אך למעשה הוא הופך להיות קריטי ביותר במהלך איתור באגים במודל. זהה את מנהל הנתונים שבבעלותו מערך הנתונים והבטח שהוא יכול לספק את התיעוד המדויק ביותר.
2. האם המדדים המצטברים/נגזרים במערך הנתונים הם סטנדרטיים?
נתונים או מדדים נגזרים יכולים להיות בעלי מספר מקורות אמת והגדרות עסקיות. ודא שלמדדים יש הגדרה עסקית מתועדת ברורה (לעיתים מרומזת בתוך ETL)
3. האם מערך הנתונים תואם לתקנות זכויות הנתונים (כגון GDPR, CCPA וכו')
תקנות זכויות הנתונים הופכות כעת לקריטיות - חשוב לעקוב ולאכוף אותן במהלך אימון מודל ואימון מחדש. יש מספר הולך וגדל של תקנות זכויות נתונים כמו GDPR, CCPA, חוק הגנת הנתונים הכללי הברזילאי, הצעת חוק הגנת מידע אישי של הודו ועוד כמה אחרים, כפי שמוצג באיור. חוקים אלה מחייבים לאסוף, להשתמש ולמחוק נתוני לקוחות בהתבסס על העדפותיהם. יש היבטים שונים של זכויות נתונים, דהיינו: איסוף זכויות נתונים, שימוש בזכויות נתונים, מחיקת זכויות נתונים, גישה לזכויות נתונים.
4. האם קיים תהליך ברור של ניהול שינויים, כך ששינויי סכימת/הגדרה של מערך נתונים יימסרו לכל הצרכנים?
נפוץ מאוד ששינויי סכימה במקור אינם מתואמים עם עיבוד במורד הזרם. השינויים יכולים לנוע בין שינויים בסכימה (שבירת צינורות קיימים) ועד לשינויים סמטיים שקשה לזהות בתכונות הנתונים. כמו כן, כאשר מדדים עסקיים משתנים, יש חוסר בגירסאות של ההגדרות.
5. מהו ההקשר שבו נאסף מערך הנתונים?
מערכי נתונים לעתים רחוקות לוכדים את האמת האולטימטיבית מנקודת מבט סטטיסטית. הם לוכדים רק את המאפיינים שבעלי האפליקציות דרשו באותו זמן למקרה השימוש שלהם. חשוב לנתח מערכי נתונים עבור הטיה ונתונים שנפלטו. הבנת ההקשר של מערך הנתונים היא סופר-קריטית.
6. האם הנתונים הם IID?
השמיים הנחה מרומזת של אימון מודל הוא שהנתונים הם IID (עצמאי ומופץ באופן זהה). כמו כן, לנתונים יש תאריך תפוגה. ייתכן שרשומות של התנהגות לקוחות מ-10 שנים לא מייצגות.
7. האם מערך הנתונים נבדק/אומת עבור שגיאות שיטתיות באיסוף נתונים?
אם השגיאות במערך הנתונים הן אקראיות, הן פחות מזיקות לאימון המודלים. אבל אם יש באג כזה ששורה או עמודה ספציפית חסרה באופן שיטתי, זה יכול להוביל להטיה במערך הנתונים. לדוגמה, חסרים פרטי מכשיר של קליקים של לקוחות עבור קטגוריית משתמש עקב באג, מערך הנתונים לא יהיה מייצג את המציאות.
8. האם מערך הנתונים מנוטר לשינויי הפצה פתאומיים?
מערכי נתונים מתפתחים כל הזמן. ניתוח התפלגות הנתונים אינו פעילות חד פעמית הנדרשת רק בזמן יצירת המודל. במקום זאת, יש צורך לנטר באופן רציף מערכי נתונים לאיתור דריפטים, במיוחד עבור הדרכה מקוונת.
9. כיצד מטופלים חריגים במערך הנתונים?
חריגים אינם בהכרח רעים ולעיתים חיוניים לבנייה נכונה של הדגם. חשוב להבין האם במהלך האיסוף מסננים את החריגים ומה ההיגיון/קריטריונים.
10. האם למערך הנתונים הוקצה מנהל נתונים? (מתאים לצוותים גדולים יותר)
מערכי נתונים הם חסרי תועלת אם לא ניתן להבין אותם. הניסיון להנדס לאחור את המשמעות של עמודות הוא לעתים קרובות 'קרב אבוד'. המפתח הוא להבטיח שיש מנהל נתונים שאחראי על מערך נתונים כדי לעדכן ולפתח את פרטי התיעוד.
מניסיוני, התשובה לשאלות אלו עוזרת לחשוף באופן יזום ידועים ידועים, ידועים לא ידועים ואלמונים לא ידועים במערך הנתונים. לא חשוב שלכל אחת מהשאלות תהיה תשובה חיובית. במקום זאת, התחשבות בתגובות אלו יכולה להאיץ את מחזור חיי הבינה המלאכותית ולעזור למנוע כתמים עיוורים.
Bio you Sandeep Uttamchandani, Ph.D.: נתונים + AI/ML — גם בונה מוצר/תוכנה (סמנכ"ל Engg) וגם מוביל בתפעול יוזמות נתונים/AI (CDO) ברחבי הארגון | מחבר הספרים של אוריילי | מייסד - DataForHumanity (מלכ"ר)
מידע נוסף:
הסיפורים הגדולים ביותר ב 30 יום | |||||
---|---|---|---|---|---|
|
|
מקור: https://www.kdnuggets.com/2021/09/dataset-asking-10-questions.html
- "
- &
- גישה
- חֶשְׁבּוֹן
- AI
- תעשיות
- אנליזה
- אנדרו נג
- בקשה
- אפליקציות
- קרב
- נתונים גדולים
- הצעת חוק
- חרק
- לִבנוֹת
- בונה
- בִּניָן
- עסקים
- CCPA
- שינוי
- טור
- Common
- צרכנים
- צְרִיכָה
- נתונים
- הגנה על נתונים
- מדע נתונים
- מחסן נתונים
- למידה עמוקה
- ירד
- מהנדס
- הנדסה
- וכו '
- Excel
- ניסיון
- חקירה
- פָּנִים
- כשלון
- תרשים
- ראשון
- מייסד
- GDPR
- כללי
- גדל
- כאבי ראש
- איך
- HTTPS
- לזהות
- הודו
- IT
- מפתח
- חוקים
- עוֹפֶרֶת
- למידה
- קו
- לינקדין
- למידת מכונה
- ניהול
- מדדים
- מיקרוסופט
- מודל
- כלומר
- ללא כוונת רווח
- באינטרנט
- לפתוח
- פועל
- אחרים
- בעלי
- מידע אישי
- תיק עבודות
- המוצר
- פּרוֹיֶקט
- .
- פיתון
- רכס
- מציאות
- רשום
- תקנון
- להפוך
- מדע
- מדענים
- מיומנויות
- מאט
- מְהִירוּת
- סיפורים
- הצלחה
- בדיקות
- המקור
- זמן
- חלק עליון
- לגעת
- לעקוב
- הדרכה
- עדכון
- מחסן
- אינטרנט
- מה
- מי
- בתוך
- X
- שנים
- YouTube