Чи можуть прогностичні моделі коледжу пережити пандемію?

Вихідний вузол: 820285

Незважаючи на те, що багато хто хоче забути 2020 рік, науковці з обробки даних будуть пам’ятати про рік, коли ми визначимо, чи вплив пандемії робить дані за 2020 рік аномальними чи ознакою більш постійних змін у вищому класі. Оскільки ми розробляємо нові прогнозні моделі й оновлюємо існуючі за допомогою даних, зібраних за останній рік, нам потрібно буде проаналізувати їх вплив і вирішити, наскільки сильно зважувати ці дані, намагаючись передбачити, що буде далі.

За різка зміна кількості студентів, які подали документи та зарахувалися минулого року, навіть знайомі дані з матеріалів заявки стали менш доступними, тому коледжам важче передбачити, як, імовірно, поводитимуться абітурієнти та студенти, які повертаються. Через труднощі, які студенти мали під час здачі SAT або ACT під час пандемії, багато закладів перейшли на тестування. Дефіцитніші дані про іспити та велика різниця в кількості, типі та термінах подачі заяв і записів зробили звичні річні цикли діяльності вищих навчальних закладів менш передбачуваними.

Офіцери приймальної комісії та керівники зарахування задають собі кілька запитань. Чи варто їм очікувати, що цього року все повернеться до «нормальних» моделей до COVID-XNUMX або назавжди змінить свої очікування? Чи повинні вони змінити критерії вступу чи стипендії? Чи варто їм після безпрецедентного року відмовитися від прогнозних моделей, які вони навчили на минулих даних? І якщо вони збережуть існуючі процеси та інструменти, як вони зможуть працювати з дослідниками даних, щоб відкалібрувати їх, щоб вони залишалися корисними?

Я вважаю, що прогнозні моделі все ще мають велику цінність для університетів. З одного боку, моделі, навчені на минулих даних, можуть бути особливо корисними для розуміння того, як реальність відрізнялася від очікувань. Але минулий рік показав, наскільки важливо, щоб ми повністю розуміли «як» і «чому» прогнозів, які ці інструменти роблять щодо того, «хто», швидше за все, зареєструється або може потребувати додаткових послуг, щоб допомогти їм досягти успіху в установа.

Які моделі помилялися і були правильні

Оцінюючи моделі, які я створив до COVID-19, я виявив тенденції та кореляції, спричинені пандемією, які модель виявила в минулих даних. По суті, він давав обґрунтовані прогнози, але не передбачав швидкість і масштаб.

Одним із прикладів є зв’язок між незадоволеними фінансовими потребами та утриманням студентів. Студенти, чиї потреби не покриваються фінансовою допомогою, як правило, повторно вступають за нижчими ставками. Схоже, ця модель зберігалася під час пандемії, і моделі часто правильно визначали, які студенти найбільше ризикували не вступити на наступний семестр через фінансові проблеми.

Проте в контексті кризи моделі також могли бути занадто оптимістичними щодо ймовірності повернення інших студентів. Оскільки фінансове майбутнє все більшої кількості сімей ставало менш певним, фінансові потреби, які не були вирішені за допомогою позик, стипендій і грантів, могли мати більший, ніж зазвичай, вплив на рішення студентів не вступати повторно. Це може допомогти пояснити, чому загальні показники утримання в 2020 році знизилися різкіше, ніж передбачалося моделями для багатьох установ.

Модель, яка генерує показники ймовірності утримання з використанням більш «чорного ящика» (менш зрозумілого) підходу та без додаткового контексту про те, які змінні вона має найбільшу вагу, надає менше цінної інформації, щоб допомогти установам упоратися з ризиками утримання, які тепер посилюються. Установи, які покладаються на цей тип моделі, погано розуміють, як пандемія вплинула на результат їхніх прогнозів. Це ускладнює визначення того, чи продовжувати їх використовувати та за яких обставин.

Просто тому, що прогностична модель працює добре і її можна пояснити, звичайно, не означає, що вона та система, яку вона представляє, звільнені від глибокого вивчення. Напевно, це добре, що ми повинні ретельніше придивитися до результатів наших моделей і визначити, для кого моделі підходять, а для кого – ні, працюють добре в наших нових обставинах.

Якщо багатим сім’ям вдасться краще «пережити» пандемію, студенти з цих сімей можуть вступати на навчання ближче до показників до пандемії. У свою чергу, моделі добре прогнозують своє зарахування. Але сім’ї, для яких вірус становить більший ризик для здоров’я чи економічний ризик, можуть приймати інші рішення щодо відправлення своїх дітей до коледжу під час пандемії, навіть якщо їхній поточний статус не змінився «на папері» чи в наборах даних, які використовує модель. Виявлення груп, для яких прогнози моделей менш точні у важкі часи, висвітлює фактори, невідомі моделі, які мають реальний вплив на учнів.

Складне алгоритмічне зміщення

Ще важливіше виявити тих людей, яких моделі не помічають або неправильно характеризують у той час, коли суспільна нерівність є особливо помітною та шкідливою. Маргіналізовані спільноти несуть основний тягар здоров’я та фінансового впливу COVID-19. Є історичні соціальні упередження, «запечені» в наших даних і системи моделювання, і машини, які прискорюють і розширюють існуючі процеси, часто зберігають ці упередження. Прогнозні моделі та науковці з людських даних повинні працювати узгоджено, щоб гарантувати, що соціальний контекст та інші важливі фактори інформують про вихідні дані алгоритму.

Наприклад, минулого року алгоритм замінив вступні іспити до коледжів Великобританії, нібито передбачаючи, як студенти впораються з іспитом, якби вони його склали. Алгоритм дав дуже суперечливі результати.

Вчителі оцінювали, як їхні учні показали б іспити, а потім алгоритми коригували ці людські прогнози на основі попередніх результатів учнів кожної школи. як Аксиос повідомив, «Найбільше постраждали учні з високими оцінками з менш сприятливих шкіл, яким було більше шансів знизити їхні бали, тоді як студенти з багатших шкіл з більшою ймовірністю підвищили свої бали».

У статті зроблено висновок: «Погано розроблені алгоритми ризикують закріпити нову форму упередженості, яка може мати наслідки, які виходять далеко за межі навчання в університеті». З тих пір британський уряд відмовився від алгоритму після масового громадського обурення, в тому числі з боку студентів, які показали набагато кращі результати на пробних іспитах, ніж передбачали результати, згенеровані алгоритмом.

Щоб уникнути несправедливих сценаріїв, які впливають на траєкторію життя студентів, прогностичні моделі не слід використовувати для ухвалення важливих рішень без того, щоб люди, які мають досвід у цій галузі, перевірили кожен результат і мали право оскаржити або скасувати їх. Ці моделі мають бути максимально прозорими та зрозумілими, а їхні дані та методи мають бути повністю задокументовані та доступні для перегляду. Автоматизовані прогнози можуть інформувати людей, які приймають рішення, але не повинні замінювати їх. Крім того, прогнози завжди слід порівнювати з фактичними результатами, а моделі слід контролювати, щоб визначити, коли їх потрібно перенавчати, враховуючи мінливу реальність.

Зрештою, хоча 2020 рік відкрив сувору правду про наші існуючі системи та моделі, 2021 рік дає можливість установам визнати недоліки, усунути упередження та змінити підходи. Наступна ітерація моделей буде сильнішою для нього, а краща інформація та аналітика принесе користь усім.

Джерело: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Часова мітка:

Більше від Ед Сердж