הסבר נתונים: המקביל להסבר מודל - DATAVERSITY

הסבר נתונים: המקביל להסבר המודל - DATAVERSITY

צומת המקור: 2658143

כיום, AI ו-ML נמצאים בכל מקום. 

בין אם זה כולם משחקים ChatGPT (הכי מהיר אפליקציה מאומצת בהיסטוריה) או הצעה אחרונה להוספה צבע רביעי לרמזורים כדי להפוך את המעבר למכוניות בנהיגה עצמית בטוחה יותר, הבינה המלאכותית הרוויה את חיינו ביסודיות. בעוד שבינה מלאכותית עשויה להיראות נגישה יותר מאי פעם, המורכבות של דגמי בינה מלאכותית גדלה באופן אקספוננציאלי. 

דגמי AI נכללים בקטגוריות העיקריות של דגמי קופסה שחורה ודגמי קופסה לבנה. דגמי הקופסה השחורה מגיעים להחלטה ללא הסבר, בעוד שדגמי הקופסה הלבנה מספקים תוצאה המבוססת על הכללים שהניבו תוצאה זו. 

ככל שאנו ממשיכים להתקדם לעבר עולם של שיטות למידה עמוקה שלמות, רובן נוטות בעיקר למודלים של קופסה שחורה. 

הבעיה בגישה הזו? לא ניתן לצרוך ישירות דגמי קופסה שחורה (כמו אלה הבנויים בראייה ממוחשבת). זה מכונה לעתים קרובות בעיית הקופסה השחורה. בעוד שהכשרה מחדש של דגמי הקופסה השחורה יכולה לתת למשתמשים זינוק, פרשנות המודל והבנת התוצאות של מודל הקופסה השחורה הופכת קשה יותר ככל שהמודלים גדלים במורכבותם.

טקטיקה אחת להתמודד עם חידת הקופסה השחורה היא ליצור דגם מאוד מותאם וניתן להסבר. 

אבל, זה לא הכיוון שהעולם צועד בו. 

במקום שבו מסתיימת הסבר המודל, הסבר הנתונים מתחיל

הסבר הוא קריטי מכיוון שהוא משפר את השקיפות, הדיוק וההגינות של המודל ויכול גם לשפר את האמון ב-AI. בעוד שמסבירות מודל היא גישה קונבנציונלית, כעת מתעורר גם הצורך בסוג חדש: יכולת הסברת נתונים.

הסבר מודל פירושה הבנת האלגוריתם, על מנת להבין את התוצאה הסופית. לדוגמה, אם מודל המשמש ביחידה אונקולוגית נועד לבדוק אם גידול סרטני, ספק שירותי בריאות צריך להבין את המשתנים שיוצרים את התוצאות הסופיות. למרות שזה נשמע מצוין בתיאוריה, יכולת ההסבר של המודל לא ממש מטפלת בבעיית הקופסה השחורה. 

ככל שהמודלים הופכים מורכבים יותר ויותר, רוב המתרגלים לא יוכלו לאתר את התמורות ולפרש את החישובים בשכבות הפנימיות של המודל. הם מסתמכים במידה רבה על מה שהם יכולים לשלוט, כלומר, מערכי הנתונים של ההדרכה ומה שהם צופים, התוצאות ומדדי החיזוי.  

בואו נשתמש בדוגמה של מדען נתונים בונה מודל כדי לזהות תמונות של ספלי קפה מאלפי תצלומים - אבל המודל מתחיל לזהות גם תמונות של כוסות שתייה וספלי בירה, למשל. בעוד שלספלי הזכוכית והבירה עשוי להיות דמיון מסוים לספלי קפה, ישנם הבדלים ברורים, כגון חומרים אופייניים, צבע, אטימות ופרופורציות מבניות.

כדי שהמודל יזהה ספלי קפה באמינות גבוהה יותר, על מדען הנתונים לקבל תשובות לשאלות כמו:

  • אילו תמונות הרימה הדוגמנית במקום ספלי קפה? 
  • האם הדגם נכשל כי לא סיפקתי לו מספיק או את הדוגמאות הנכונות של ספלי קפה?
  • האם הדגם הזה בכלל מספיק טוב למה שניסיתי להשיג?
  • האם אני צריך לערער על ההסתכלות שלי על המודל?
  • מה אני יכול לקבוע סופית שגורם למודל להיכשל? 
  • האם עלי ליצור הנחות חדשות של המודל?
  • האם פשוט בחרתי את הדגם הלא נכון לעבודה מלכתחילה?

כפי שאתה יכול לראות, מתן סוג כזה של תובנה, הבנה והסבר מודל בכל פעם שיש בעיה זה מאוד לא סביר.

הסבר הנתונים הוא הבנת נתונים משמש להדרכה וקלט למודל, על מנת להבין כיצד מגיעים לתוצאה הסופית של מודל. ככל שאלגוריתמי ML הופכים מורכבים יותר ויותר, אך נעשה בהם שימוש נרחב יותר במקצועות ובתעשיות, הסבר הנתונים ישמש כמפתח לפתיחה מהירה ופתרון של בעיות נפוצות, כמו למשל ספל הקפה שלנו.

הגברת ההוגנות והשקיפות ב-ML עם יכולת הסבר נתונים

הוגנות בתוך מודלים של ML היא נושא חם, שניתן להפוך אותו חם עוד יותר על ידי יישום יכולת הסבר נתונים.

למה הבאזז? הטיה ב-AI יכולה ליצור תוצאות עם דעות קדומות עבור קבוצה אחת. אחד המקרים המתועדים ביותר של זה הוא הטיות במקרים של שימוש גזעני. בואו נסתכל על דוגמה. 

נניח שפלטפורמת צרכנים גדולה ומוכרת מגייסת תפקיד של מנהל שיווק חדש. כדי להתמודד עם המוני קורות החיים המתקבלים מדי יום, מחלקת משאבי אנוש פורסת מודל AI/ML כדי לייעל את תהליך הגשת הבקשה והגיוס על ידי בחירת מאפייני מפתח או מועמדים מוסמכים. 

כדי לבצע משימה זו, ולהבחין בכל קורות חיים ולתפוס אותם, המודל יעשה זאת על ידי הגיון במאפיינים דומיננטיים מרכזיים. למרבה הצער, זה גם פירוש הדבר שהמודל יכול לקלוט באופן מרומז הטיות גזעיות כלליות גם אצל המועמדים. איך זה היה קורה בדיוק? אם מאגר מועמדים כולל אחוז קטן יותר של גזע אחד, המכונה תחשוב שהארגון מעדיף חברים מגזע אחר, או ממערך הנתונים הדומיננטי.

אם מודל נכשל, גם אם הוא לא מכוון, הכשל חייב להיות מטופל על ידי החברה. בעיקרו של דבר, מי שפרס את המודל חייב להיות מסוגל להגן על השימוש במודל.

במקרה של גיוס עובדים והטיה גזעית, המגן יצטרך להיות מסוגל להסביר לציבור זועם ו/או מאגר יישומים את השימוש במערכי נתונים כדי להכשיר את המודל, את התוצאות המוצלחות הראשוניות של המודל המבוסס על ההכשרה הזו, את הכישלון של המודל שיש להרים על מקרה פינתי, וכיצד זה הוביל לחוסר איזון נתונים לא מכוון שיצר בסופו של דבר תהליך סינון מוטה גזעית.

עבור רובם, סוג זה של פרטים מטופשים ב-AI, מערכי נתונים של חוסר איזון, אימון מודלים וכשל בסופו של דבר באמצעות פיקוח על נתונים לא יתקבלו היטב או אפילו יובנו. אבל מה יובן ויישאר מהסיפור הזה? חברת XYZ נוהגת בהטיה גזעית בגיוס עובדים. 

מוסר ההשכל של הדוגמה הכל כך נפוצה הזו הוא שטעויות לא מכוונות ממודל חכם מאוד קורות ויכולות להשפיע לרעה על בני אדם ולהביא לתוצאות קשות. 

לאן הסבר הנתונים לוקח אותנו

במקום לתרגם תוצאות באמצעות הבנה של מודל למידת מכונה מורכבת, יכולת הסבר נתונים היא שימוש בנתונים כדי להסביר תחזיות וכישלונות.

הסבר הנתונים הוא אז שילוב של ראיית נתוני הבדיקה ו להבין מה המודל יאסוף מהנתונים האלה. זה כולל הבנת דגימות נתונים מיוצגות בחסר, דגימות מיוצגות יתר על המידה (כמו בדוגמה לגיוס עובדים), ושקיפות של זיהוי מודל על מנת להבין במדויק תחזיות ותחזיות שגויות.

הבנה זו של הסבר הנתונים לא רק תשפר את דיוק המודל וההגינות, אלא היא גם תעזור למודלים להאיץ מהר יותר.

ככל שאנו ממשיכים להסתמך על ולשלב תוכניות AI ו-ML מורכבות בחיי היומיום שלנו, פתרון בעיית הקופסה השחורה הופך להיות קריטי, במיוחד עבור כשלים ותחזיות שגויות. 

בעוד שלהסבר של מודל תמיד יהיה המקום שלו, זה דורש רובד נוסף. אנו זקוקים להסברת נתונים, מכיוון שהבנת מה מודל רואה וקורא לעולם לא תכוסה בהסבר המודל הקלאסי.

בול זמן:

עוד מ קושי