Kan college-prediktive modeller overleve pandemien?

Kilde node: 820285

Selv om mange er ivrige etter å glemme 2020, vil dataforskere ha året øverst i tankene når vi avgjør om pandemiens innvirkning gjør 2020-data unormale eller en indikasjon på mer permanent endring i høyere utgave. Når vi utvikler nye prediktive modeller og oppdaterer de eksisterende med data samlet inn det siste året, må vi analysere effektene og bestemme hvor tungt vi skal veie disse dataene når vi prøver å forutsi hva som kommer videre.

Beyond dramatisk endring i antall studenter som søkte og meldte seg på i fjor, selv kjente data fra søknadsmateriell har blitt mindre tilgjengelige, noe som gjør det vanskeligere for høyskoler å forutse hvordan søkere og returnerende studenter sannsynligvis vil oppføre seg. På grunn av vanskelighetene studentene hadde med å ta SAT eller ACT under pandemien, mange institusjoner har gått test-valgfritt. Knappere eksamensdata og høy variasjon i antall, type og tidspunkt for søknader og påmeldinger har gjort de velkjente årssyklusene for høyere oppdragsoperasjoner mindre forutsigbare.

Opptaksansvarlige og innskrivningsansvarlige stiller seg flere spørsmål. Bør de forvente at ting skal gå tilbake til "normale" pre-COVID-mønstre i år eller endre forventningene permanent? Bør de endre opptaks- eller stipendkriterier? Bør de kaste ut prediksjonsmodellene de trente på tidligere data etter et enestående år? Og hvis de beholder eksisterende prosesser og verktøy, hvordan kan de samarbeide med dataforskere for å rekalibrere dem for å forbli nyttige?

Jeg tror prediktive modeller fortsatt gir mye verdi for universiteter. For det første kan modeller trent på tidligere data være spesielt nyttige for å forstå hvordan virkeligheten skilte seg fra forventningene. Men det siste året har avslørt hvor viktig det er at vi fullt ut forstår "hvordan" og "hvorfor" av spådommene disse verktøyene gir om "hvem" er mest sannsynlig å registrere seg eller kan trenge tilleggstjenester for å hjelpe dem å lykkes med en institusjon.

Hvilke modeller som ble feil og riktige

Da jeg vurderte modeller jeg bygde før COVID-19, fant jeg de pandemikatalyserte trendene og korrelasjonene som modellen hadde identifisert i tidligere data. I hovedsak ga den gode spådommer, men forutså ikke hastighet og skala.

Et eksempel er forholdet mellom udekket økonomisk behov og studentoppbevaring. Studenter som har behov som ikke dekkes av økonomisk støtte, har en tendens til å melde seg på igjen til lavere priser. Dette mønsteret ser ut til å ha fortsatt under pandemien, og modeller identifiserte ofte riktig hvilke studenter som var mest utsatt for å ikke melde seg på neste semester på grunn av økonomiske problemer.

Men i konteksten av krisen kan modellene også ha vært altfor optimistiske med hensyn til sannsynligheten for at andre studenter kommer tilbake. Etter hvert som flere familiers økonomiske fremtid ble mindre sikker, kan økonomiske behov som ikke ble dekket av lån, stipend og tilskudd ha hatt en større innvirkning enn vanlig på studentenes beslutninger om ikke å melde seg på igjen. Det kan bidra til å forklare hvorfor den samlede oppbevaringsraten sank kraftigere i 2020 enn modeller forventet ved mange institusjoner.

En modell som genererer poeng for oppbevaringssannsynlighet med en mer «black box» (mindre forklarlig) tilnærming, og uten ytterligere kontekst om hvilke variabler den veier tyngst, gir færre verdifulle innsikter for å hjelpe institusjoner med å håndtere nå forsterkede retensjonsrisikoer. Institusjoner som er avhengige av denne typen modeller har mindre forståelse for hvordan pandemien påvirket resultatet av spådommene deres. Det gjør det vanskeligere å avgjøre om og under hvilke omstendigheter man skal fortsette å bruke dem.

Bare fordi en prediktiv modell fungerer godt og kan forklares, betyr det selvfølgelig ikke at den og systemet den representerer er unntatt fra dyp undersøkelse. Det er sannsynligvis en god ting at vi må se nærmere på modellenes produksjon og finne ut hvem modellene er og ikke gir gode resultater under våre nye omstendigheter.

Hvis velstående familier bedre kan "ri ut" pandemien, kan studenter fra disse familiene melde seg nærmere pre-pandemien. På sin side spår modellene deres påmelding godt. Men familier for hvem viruset utgjør en høyere helsemessig eller økonomisk risiko, kan ta andre beslutninger om å sende barna sine til college under pandemien, selv om deres nåværende status ikke har endret seg «på papiret» eller i datasettene modellen bruker. Å identifisere grupper for hvilke modellers spådommer er mindre nøyaktige i vanskelige tider fremhever faktorer som er ukjente for modellen, og som har en virkelig innvirkning på elevene.

Utfordrende algoritmisk skjevhet

Det er enda viktigere å identifisere de menneskene som modeller overser eller feilkarakteriserer i en tid da samfunnsmessige ulikheter er spesielt synlige og skadelige. Marginaliserte lokalsamfunn bærer hovedtyngden av de helsemessige og økonomiske konsekvensene av covid-19. Det er historiske sosiale skjevheter "bakt inn i" våre data og modelleringssystemer, og maskiner som akselererer og utvider eksisterende prosesser, opprettholder ofte disse skjevhetene. Prediktive modeller og menneskelige dataforskere bør samarbeide for å sikre at sosial kontekst og andre viktige faktorer informerer algoritmiske utdata.

For eksempel, i fjor, erstattet en algoritme opptaksprøver til U.K. høyskoler, som angivelig forutsier hvordan studentene ville gjort det på en eksamen hvis de hadde tatt den. Algoritmen ga svært kontroversielle resultater.

Lærere estimerte hvordan elevene deres ville ha prestert på eksamenene, og deretter justerte algoritmene disse menneskelige spådommene basert på historiske prestasjoner til elever fra hver skole. Som Rapporterte Axios, "De største ofrene var elever med høye karakterer fra mindre gunstige skoler, som var mer sannsynlig å få poengsummen nedprioritert, mens elever fra rikere skoler hadde større sannsynlighet for å få poengsummen økte."

Artikkelen konkluderte: "Dårlig utformede algoritmer risikerer å forankre en ny form for skjevhet som kan ha konsekvenser som går langt utover universitetsplassering." Den britiske regjeringen har siden forlatt algoritmen, etter massiv offentlig ramaskrik, inkludert fra studenter som presterte mye bedre på falske eksamener enn deres algoritmisk genererte resultater spådde.

For å unngå urettferdige scenarier som påvirker banen til elevenes liv, bør ikke prediktive modeller brukes til å ta beslutninger med stor innflytelse uten at personer med domeneekspertise vurderer hvert resultat og har makt til å utfordre eller overstyre dem. Disse modellene må være så transparente og forklarlige som mulig, og deres data og metoder må være fullstendig dokumentert og tilgjengelig for gjennomgang. Automatiserte spådommer kan informere menneskelige beslutningstakere, men bør ikke erstatte dem. I tillegg bør spådommer alltid sammenlignes med faktiske utfall, og modeller må overvåkes for å avgjøre når de må omskoleres, gitt endrende virkelighet.

Til syvende og sist, mens 2020 avslørte harde sannheter om våre eksisterende systemer og modeller, gir 2021 en mulighet for institusjoner til å gjenkjenne feil, takle skjevheter og tilbakestille tilnærminger. Den neste iterasjonen av modeller vil være sterkere for det, og bedre informasjon og innsikt kommer alle til gode.

Kilde: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Tidstempel:

Mer fra Ed Surge