Czy modele predykcyjne uczelni mogą przetrwać pandemię?

Węzeł źródłowy: 820285

Choć wielu chciałoby zapomnieć o roku 2020, analitycy danych będą o nim pamiętać, ustalając, czy wpływ pandemii spowoduje, że dane za 2020 rok staną się anomalią, czy też będą oznaką bardziej trwałych zmian w szkolnictwie wyższym. W miarę opracowywania nowych modeli predykcyjnych i aktualizowania istniejących danymi zebranymi w zeszłym roku będziemy musieli przeanalizować ich skutki i zdecydować, jak mocno potraktować te dane, próbując przewidzieć, co będzie dalej.

Poza radykalna zmiana w liczbie studentów, którzy aplikowali i zapisali się na studia w zeszłym rokunawet znane dane z materiałów aplikacyjnych stały się mniej dostępne, co utrudnia uczelniom przewidzenie, jak prawdopodobnie zachowają się kandydaci i powracający studenci. Ze względu na trudności, jakie uczniowie mieli ze zdaniem SAT lub ACT podczas pandemii, wiele instytucji przeszło na opcję testu opcjonalnego. Mniej danych z egzaminów oraz duże zróżnicowanie liczby, rodzaju i terminów składania wniosków i zapisów sprawiły, że znane roczne cykle działalności szkolnictwa wyższego są mniej przewidywalne.

Urzędnicy ds. rekrutacji i kierownicy rekrutacji zadają sobie kilka pytań. Czy powinni spodziewać się w tym roku powrotu do „normalnych” wzorców sprzed pandemii, czy też trwale zmienić swoje oczekiwania? Czy powinni zmienić kryteria przyjęć lub stypendiów? Czy po bezprecedensowym roku powinni wyrzucić modele predykcyjne, które wytrenowali na danych z przeszłości? A jeśli zachowają istniejące procesy i narzędzia, w jaki sposób mogą współpracować z analitykami danych, aby je ponownie skalibrować, aby pozostały przydatne?

Wierzę, że modele predykcyjne nadal oferują uniwersytetom dużą wartość. Po pierwsze, modele wytrenowane na danych z przeszłości mogą być szczególnie przydatne w zrozumieniu, w jaki sposób rzeczywistość różni się od oczekiwań. Jednak ostatni rok pokazał, jak ważne jest, abyśmy w pełni zrozumieli, „jak” i „dlaczego” przewidywań tych narzędzi dotyczących „kto” najprawdopodobniej się zapisze lub może potrzebować dodatkowych usług, aby pomóc mu odnieść sukces na instytucja.

Które modele się myliły, a które słusznie

Oceniając modele, które zbudowałem przed pandemią COVID-19, odkryłem, że pandemia katalizowała trendy i korelacje, które model zidentyfikował w danych z przeszłości. Zasadniczo formułował rozsądne prognozy, ale nie przewidywał tempa i skali.

Jednym z przykładów jest związek między niezaspokojonymi potrzebami finansowymi a utrzymaniem studentów. Studenci, którzy mają potrzeby nieobjęte pomocą finansową, zwykle ponownie zapisują się po niższych stawkach. Wydaje się, że ten schemat utrzymywał się podczas pandemii, a modele często prawidłowo identyfikowały, którzy studenci byli najbardziej narażeni na ryzyko, że nie zapiszą się na kolejny semestr ze względu na problemy finansowe.

Jednak w kontekście kryzysu modele mogły być zbyt optymistyczne, jeśli chodzi o prawdopodobieństwo powrotu innych studentów. W miarę jak przyszłość finansowa coraz większej liczby rodzin stawała się mniej pewna, potrzeby finansowe, które nie zostały zaspokojone w formie pożyczek, stypendiów i stypendiów, mogły mieć większy niż zwykle wpływ na decyzje uczniów o rezygnacji z ponownego zapisu. To mogłoby pomóc wyjaśnić, dlaczego ogólny wskaźnik retencji spadł w 2020 r. bardziej gwałtownie niż modele przewidywane w wielu instytucjach.

Model generujący oceny prawdopodobieństwa zatrzymania pracowników przy użyciu podejścia bardziej „czarnej skrzynki” (mniej wyjaśnialnego) i bez dodatkowego kontekstu dotyczącego tego, które zmienne mają największe znaczenie, zapewnia mniej wartościowych spostrzeżeń, które pomogą instytucjom zaradzić obecnie zwiększonemu ryzyku zatrzymania. Instytucje korzystające z tego typu modelu w mniejszym stopniu rozumieją, w jaki sposób pandemia wpłynęła na wyniki ich prognoz. Utrudnia to określenie, czy i w jakich okolicznościach należy je nadal stosować.

To, że model predykcyjny dobrze się sprawdza i jest łatwy do wyjaśnienia, nie oznacza oczywiście, że on sam i system, który reprezentuje, nie podlegają dogłębnej analizie. Prawdopodobnie to dobrze, że musimy dokładniej przyjrzeć się wynikom naszych modeli i określić, dla kogo modele sprawdzają się, a dla kogo nie, w nowych okolicznościach.

Jeśli zamożne rodziny będą w stanie lepiej „przezwyciężyć” pandemię, uczniowie z tych rodzin mogliby zapisać się na studia bliżej poziomu sprzed pandemii. Z kolei modele dobrze przewidują ich rekrutację. Jednak rodziny, dla których wirus stwarza większe ryzyko zdrowotne lub ekonomiczne, mogą podczas pandemii podjąć odmienne decyzje dotyczące wysłania dzieci na studia, nawet jeśli ich obecny status nie zmienił się „na papierze” ani w zbiorach danych wykorzystywanych w modelu. Identyfikacja grup, dla których przewidywania modeli są mniej dokładne w trudnych czasach, uwypukla czynniki nieznane modelowi, a które mają rzeczywisty wpływ na uczniów.

Trudne błędy algorytmiczne

Jeszcze ważniejsze jest zidentyfikowanie osób, które modele przeoczają lub błędnie charakteryzują, w czasach, gdy nierówności społeczne są szczególnie widoczne i szkodliwe. Społeczności marginalizowane ponoszą największy ciężar skutków zdrowotnych i finansowych Covid-19. Tam są historyczne uprzedzenia społeczne „wryte” w nasze dane i systemy modelowania oraz maszyny, które przyspieszają i rozszerzają istniejące procesy, często utrwalają te uprzedzenia. Modele predykcyjne i naukowcy zajmujący się danymi ludzkimi powinni współpracować, aby zapewnić, że kontekst społeczny i inne istotne czynniki wpływają na wyniki algorytmów.

Na przykład w zeszłym roku algorytm zastąpił egzaminy wstępne na uczelnie w Wielkiej Brytanii, rzekomo przewidując, jak uczniowie poradzą sobie na egzaminie, gdyby do niego przystąpili. Algorytm dał bardzo kontrowersyjne wyniki.

Nauczyciele oszacowali, jak ich uczniowie wypadliby na egzaminach, a następnie algorytmy dostosowały te przewidywania na podstawie historycznych wyników uczniów z każdej szkoły. Jak Zgłoszono Axios„Największymi ofiarami byli uczniowie z wysokimi ocenami ze szkół mniej uprzywilejowanych, w przypadku których częściej zdarzały się obniżki ocen, podczas gdy uczniowie z bogatszych szkół częściej otrzymywali podwyżki”.

W artykule podsumowano: „Źle zaprojektowane algorytmy stwarzają ryzyko utrwalenia nowej formy uprzedzeń, która może mieć skutki wykraczające daleko poza staż na uniwersytecie”. Od tego czasu rząd brytyjski porzucił algorytm po masowym oburzeniu opinii publicznej, w tym ze strony uczniów, którzy na egzaminach próbnych wypadli znacznie lepiej, niż przewidywały wyniki wygenerowane algorytmicznie.

Aby uniknąć nieuczciwych scenariuszy, które wpływają na trajektorię życia uczniów, nie należy stosować modeli predykcyjnych do podejmowania decyzji o dużym wpływie, jeśli osoby posiadające specjalistyczną wiedzę w danej dziedzinie nie sprawdzą każdego wyniku i nie będą miały możliwości ich zakwestionowania lub uchylenia. Modele te muszą być jak najbardziej przejrzyste i zrozumiałe, a ich dane i metody muszą być w pełni udokumentowane i dostępne do przeglądu. Zautomatyzowane prognozy mogą informować decydentów, ale nie powinny ich zastępować. Ponadto przewidywania należy zawsze porównywać z rzeczywistymi wynikami, a modele należy monitorować, aby określić, kiedy należy je ponownie przeszkolić, biorąc pod uwagę zmieniającą się rzeczywistość.

Ostatecznie, choć rok 2020 obnażył twarde prawdy o naszych istniejących systemach i modelach, rok 2021 stwarza dla instytucji szansę na rozpoznanie wad, wyeliminowanie uprzedzeń i zresetowanie podejścia. Następna iteracja modeli będzie dla niego silniejsza, a lepsze informacje i spostrzeżenia przyniosą korzyści wszystkim.

Źródło: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Znak czasu:

Więcej z Eda Surge'a