האם מודלים חזויים של מכללות יכולים לשרוד את המגיפה?

צומת המקור: 820285

למרות שרבים להוטים לשכוח את 2020, מדעני נתונים ישמרו על השנה בראש כשאנחנו קובעים אם השפעת המגיפה הופכת את נתוני 2020 לאנומליים או אינדיקציה לשינוי קבוע יותר במהדורה הגבוהה. כאשר אנו מפתחים מודלים חזויים חדשים ומעדכנים את הקיימים בנתונים שנאספו בשנה האחרונה, נצטרך לנתח את ההשפעות שלהם ולהחליט באיזו כבדות לשקול את הנתונים האלה כשאנחנו מנסים לחזות את ההמשך.

מעבר שינוי דרמטי במספר התלמידים שהגישו מועמדות ונרשמו בשנה שעברה, אפילו נתונים מוכרים מחומרי יישום הפכו פחות זמינים, מה שהופך את זה לקשה יותר עבור המכללות לצפות כיצד סביר להניח שמועמדים וסטודנטים חוזרים יתנהגו. בשל הקושי שהיה לסטודנטים לקחת את SAT או ACT במהלך המגיפה, מוסדות רבים הפכו לבחינה אופציונלית. נתוני בחינות נדירים יותר ושונות גבוהה במספר, בסוג ובתזמון של בקשות והרשמות הפכו את המחזורים השנתיים המוכרים של פעולות בדרגים גבוהים לפחות צפויים.

קציני קבלה ומנהלי רישום שואלים את עצמם מספר שאלות. האם הם צריכים לצפות שדברים יחזרו לדפוסים "רגילים" שלפני ה-COVID השנה או לשנות לצמיתות את הציפיות שלהם? האם עליהם לשנות את קריטריוני הקבלה או המלגה? האם הם צריכים לזרוק את המודלים החזויים שהם אימנו על נתוני העבר לאחר שנה חסרת תקדים? ואם הם שומרים על תהליכים וכלים קיימים, איך הם יכולים לעבוד עם מדעני נתונים כדי לכייל אותם מחדש כדי להישאר שימושיים?

אני מאמין שמודלים חיזויים עדיין מציעים ערך רב לאוניברסיטאות. ראשית, מודלים שהוכשרו על פי נתוני עבר יכולים להיות שימושיים במיוחד בהבנת האופן שבו המציאות שונה מהציפיות. אבל השנה האחרונה חשפה עד כמה חשוב שנבין היטב את ה"איך" ואת ה"למה" של התחזיות שהכלים האלה עושים לגבי "מי" צפויים להירשם או אולי יזדקקו לשירותים נוספים כדי לעזור להם להצליח ב מוֹסָד.

אילו דוגמניות טעו, ונכונות

כאשר הערכתי מודלים שבניתי לפני נגיף הקורונה (COVID-19), מצאתי את המגמה המזרזת מגמות ומתאמים שהמודל זיהה בנתוני העבר. בעיקרו של דבר, הוא עשה תחזיות קוליות, אך לא צפה קצב וקנה מידה.

דוגמה אחת היא הקשר בין צורך פיננסי בלתי מסופק לבין שימור תלמידים. סטודנטים שיש להם צורך שאינו מכוסה בסיוע כספי נוטים להירשם מחדש בתעריפים נמוכים יותר. נראה שהדפוס הזה נמשך במהלך המגיפה, ולעתים קרובות מודלים זיהו בצורה נכונה אילו תלמידים היו בסיכון הגבוה ביותר שלא להירשם בקדנציה הבאה בגלל בעיות כלכליות.

אולם בהקשר של המשבר, ייתכן שהמודלים גם היו אופטימיים מדי לגבי הסבירות שסטודנטים אחרים יחזרו. ככל שהעתיד הכלכלי של יותר משפחות הפך פחות ודאי, ייתכן שהצורך הפיננסי שלא קיבל מענה באמצעות הלוואות, מלגות ומענקים היה בעל השפעה גדולה מהרגיל על החלטות הסטודנטים שלא להירשם מחדש. זה יכול לעזור להסביר מדוע שיעורי השימור הכוללים ירדו בצורה חדה יותר בשנת 2020 מאשר מודלים שצפו במוסדות רבים.

מודל שמייצר ציוני סבירות לשימור בגישה יותר "קופסה שחורה" (פחות ניתנת להסבר), וללא הקשר נוסף לגבי המשתנים שהוא שוקל הכי הרבה, מספק פחות תובנות יקרות ערך שיסייעו למוסדות להתמודד עם סיכוני שימור המוגברים כעת. למוסדות המסתמכים על סוג זה של מודלים יש פחות הבנה כיצד המגיפה השפיעה על תפוקת התחזיות שלהם. זה מקשה יותר לקבוע אם, ובאילו נסיבות, להמשיך להשתמש בהם.

זה שמודל חיזוי מתפקד היטב וניתן להסבר, לא אומר כמובן שהוא והמערכת שהוא מייצג פטורים מבדיקה מעמיקה. זה כנראה דבר טוב שעלינו לבחון טוב יותר את התפוקה של הדגמים שלנו ולקבוע עבור מי הדגמים מתפקדים ולא מניבים ביצועים טובים בנסיבות החדשות שלנו.

אם משפחות עשירות יוכלו "להיחלץ" בצורה טובה יותר מהמגיפה, סטודנטים ממשפחות אלו עשויים להירשם קרוב יותר לשיעורים שלפני המגפה. בתורם, מודלים חוזים היטב את ההרשמה שלהם. אבל משפחות שהנגיף מהווה עבורן סיכון בריאותי או כלכלי גבוה יותר עשויות לקבל החלטות שונות לגבי שליחת ילדיהן לקולג' במהלך המגיפה, גם אם הסטטוס הנוכחי שלהן לא השתנה "על הנייר" או במערך הנתונים שהמודל משתמש בהם. זיהוי קבוצות שעבורן תחזיות המודלים פחות מדויקות בזמנים קשים מדגיש גורמים שאינם ידועים למודל, שיש להם השפעה בעולם האמיתי על התלמידים.

הטיה אלגוריתמית מאתגרת

חיוני עוד יותר לזהות את אותם אנשים שדוגמניות מתעלמות מהם או מאפיינות אותם באופן שגוי בתקופה שבה אי-השוויון החברתי גלוי ומזיק במיוחד. קהילות בשוליים נושאות את עיקר ההשפעות הבריאותיות והפיננסיות של COVID-19. יש הטיות חברתיות היסטוריות "אפו" בנתונים שלנו ומערכות מידול, ומכונות שמאיצות ומרחיבות תהליכים קיימים מנציחים לעתים קרובות את ההטיות הללו. מודלים חזויים ומדעני נתונים אנושיים צריכים לעבוד בשיתוף פעולה כדי להבטיח שהקשר חברתי, וגורמים חיוניים אחרים, מודיעים לתפוקות אלגוריתמיות.

לדוגמה, בשנה שעברה, אלגוריתם החליף את מבחני הקבלה לקולג' בבריטניה, כביכול חזה כיצד יצליחו התלמידים בבחינה אילו היו ניגשים לה. האלגוריתם הניב תוצאות שנויות במחלוקת מאוד.

מורים העריכו כיצד התלמידים שלהם היו מתפקדים בבחינות, ואז האלגוריתמים התאימו את התחזיות האנושיות על סמך ביצועים היסטוריים של תלמידים מכל בית ספר. כפי ש כך דיווח אקסיוס, "הקורבנות הגדולים ביותר היו תלמידים עם ציונים גבוהים מבתי ספר פחות מועדפים, שסביר יותר שיורידו את הציונים שלהם, בעוד שתלמידים מבתי ספר עשירים יותר נטו להעלות את הציונים שלהם."

המאמר סיכם: "אלגוריתמים מעוצבים בצורה גרועה מסתכנים בביסוס צורה חדשה של הטיה שעלולה להיות בעלת השפעות החורגות הרבה מעבר למיקום באוניברסיטה." מאז נטשה ממשלת בריטניה את האלגוריתם, לאחר סערה ציבורית מסיבית, כולל מצד סטודנטים שהצליחו הרבה יותר במבחנים מדומה ממה שחזו התוצאות שלהם שנוצרו באלגוריתם.

כדי להימנע מתרחישים לא הוגנים המשפיעים על מסלול חייהם של תלמידים, אין להשתמש במודלים חיזויים לקבלת החלטות בעלות השפעה רבה מבלי שאנשים בעלי מומחיות בתחום יסקרו כל תוצאה ויש להם את הכוח לערער עליהן או לעקוף אותן. מודלים אלה חייבים להיות שקופים וניתנים להסבר ככל האפשר, והנתונים והשיטות שלהם חייבים להיות מתועדים במלואם וזמינים לבדיקה. תחזיות אוטומטיות יכולות ליידע את מקבלי ההחלטות האנושיות, אך לא אמורות להחליף אותן. בנוסף, יש להשוות תחזיות תמיד לתוצאות בפועל, ויש לנטר מודלים כדי לקבוע מתי יש צורך להכשיר אותם מחדש, בהתחשב במציאות המשתנה.

בסופו של דבר, בעוד שנת 2020 חשפה אמיתות קשות לגבי המערכות והמודלים הקיימים שלנו, 2021 מציגה הזדמנות למוסדות לזהות פגמים, להתמודד עם הטיות ולאפס גישות. האיטרציה הבאה של מודלים תהיה חזקה יותר עבורו, ומידע ותובנות טובים יותר יועילו לכולם.

מקור: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

בול זמן:

עוד מ אד סורג '