Kan universitetsprædiktive modeller overleve pandemien?

Kildeknude: 820285

Selvom mange er ivrige efter at glemme 2020, vil dataforskere holde året øverst i tankerne, når vi afgør, om pandemiens indvirkning gør 2020-data unormale eller en indikation af mere permanent ændring i højere ed. Efterhånden som vi udvikler nye forudsigelsesmodeller og opdaterer de eksisterende med data indsamlet i det sidste år, bliver vi nødt til at analysere deres virkninger og beslutte, hvor tungt vi skal veje disse data, når vi forsøger at forudsige, hvad der kommer næste gang.

Beyond dramatisk ændring i antallet af studerende, der søgte og tilmeldte sig sidste år, er selv kendte data fra ansøgningsmaterialer blevet mindre tilgængelige, hvilket gør det sværere for gymnasier at forudse, hvordan ansøgere og tilbagevendende studerende sandsynligvis vil opføre sig. På grund af de vanskeligheder, eleverne havde med at tage SAT eller ACT under pandemien, mange institutioner er blevet test-valgfri. Knappere eksamensdata og høj variation i antallet, typen og timingen af ​​ansøgninger og tilmeldinger har gjort de velkendte årlige cyklusser af højere ed-operationer mindre forudsigelige.

Adgangsansvarlige og indskrivningsledere stiller sig selv flere spørgsmål. Skal de forvente, at tingene vender tilbage til "normale" præ-COVID-mønstre i år eller permanent ændre deres forventninger? Skal de ændre optagelses- eller stipendiekriterier? Skulle de smide de prædiktive modeller ud, som de trænede på tidligere data efter et hidtil uset år? Og hvis de beholder eksisterende processer og værktøjer, hvordan kan de så arbejde sammen med dataforskere for at omkalibrere dem, så de forbliver nyttige?

Jeg tror, ​​at forudsigelige modeller stadig giver en masse værdi for universiteterne. For det første kan modeller trænet på tidligere data være særligt nyttige til at forstå, hvordan virkeligheden adskilte sig fra forventningerne. Men det sidste år har afsløret, hvor vigtigt det er, at vi fuldt ud forstår "hvordan" og "hvorfor" af de forudsigelser, som disse værktøjer giver om "hvem", der med størst sandsynlighed vil tilmelde sig eller måske har brug for yderligere tjenester for at hjælpe dem med at få succes med en institution.

Hvilke modeller gik galt og rigtigt

Da jeg vurderede modeller, jeg byggede før COVID-19, fandt jeg de pandemiske katalyserede tendenser og sammenhænge, ​​som modellen havde identificeret i tidligere data. I det væsentlige lavede den gode forudsigelser, men forudså ikke hastighed og skala.

Et eksempel er forholdet mellem udækkede økonomiske behov og fastholdelse af studerende. Studerende, der har behov, der ikke er dækket af økonomisk støtte, har en tendens til at genindmeldes til lavere takster. Det mønster ser ud til at være fortsat under pandemien, og modeller identificerede ofte korrekt, hvilke studerende der havde størst risiko for ikke at tilmelde sig i næste semester på grund af økonomiske problemer.

Men i forbindelse med krisen kan modellerne også have været alt for optimistiske med hensyn til sandsynligheden for, at andre studerende vender tilbage. Efterhånden som flere familiers økonomiske fremtid blev mindre sikker, kan økonomiske behov, der ikke blev dækket af lån, stipendier og legater, have haft en større indflydelse end normalt på studerendes beslutninger om ikke at genindmelde sig. Det kunne være med til at forklare, hvorfor de samlede fastholdelsesrater faldt mere kraftigt i 2020, end modellerne forventede på mange institutioner.

En model, der genererer sandsynlighedsscore for fastholdelse med en mere "sort boks" (mindre forklarlig) tilgang og uden yderligere kontekst om, hvilke variabler den vejer tungest, giver færre værdifulde indsigter til at hjælpe institutioner med at håndtere nu forstærkede fastholdelsesrisici. Institutioner, der er afhængige af denne type model, har mindre forståelse for, hvordan pandemien påvirkede resultatet af deres forudsigelser. Det gør det sværere at afgøre, om og under hvilke omstændigheder, man skal fortsætte med at bruge dem.

Bare fordi en prædiktiv model fungerer godt og kan forklares, betyder det selvfølgelig ikke, at den og det system, den repræsenterer, er undtaget fra dyb undersøgelse. Det er nok en god ting, at vi skal se nærmere på vores modellers output og afgøre, for hvem modellerne er og ikke klarer sig godt under vores nye omstændigheder.

Hvis velhavende familier bedre kan "ride ud" af pandemien, kan studerende fra disse familier tilmelde sig tættere på præ-pandemien. Til gengæld forudsiger modellerne deres tilmelding godt. Men familier, for hvem virussen udgør en højere sundhedsmæssig eller økonomisk risiko, kan træffe forskellige beslutninger om at sende deres børn på college under pandemien, selvom deres nuværende status ikke har ændret sig "på papiret" eller i de datasæt, som modellen bruger. Identifikation af grupper, for hvilke modellers forudsigelser er mindre nøjagtige i hårde tider, fremhæver faktorer, som modellen ikke kender, og som har indflydelse på eleverne i den virkelige verden.

Udfordrende algoritmisk bias

Det er endnu mere vigtigt at identificere de mennesker, som modeller overser eller fejlkarakteriserer på et tidspunkt, hvor samfundsmæssige uligheder er særligt synlige og skadelige. Marginaliserede samfund bærer hovedparten af ​​de sundhedsmæssige og økonomiske konsekvenser af COVID-19. Der er historiske sociale skævheder "bagt ind i" vores data og modelleringssystemer og maskiner, der accelererer og udvider eksisterende processer, fastholder ofte disse skævheder. Forudsigelsesmodeller og menneskelige dataforskere bør arbejde sammen for at sikre, at social kontekst og andre væsentlige faktorer informerer om algoritmiske output.

For eksempel, sidste år, erstattede en algoritme britiske college-optagelsesprøver, der angiveligt forudsagde, hvordan studerende ville klare sig på en eksamen, hvis de havde taget den. Algoritmen gav meget kontroversielle resultater.

Lærere estimerede, hvordan deres elever ville have klaret sig ved eksamenerne, og derefter justerede algoritmerne disse menneskelige forudsigelser baseret på historiske præstationer for elever fra hver skole. Som Axios rapporterede, "De største ofre var elever med høje karakterer fra mindre stillede skoler, som var mere tilbøjelige til at få deres score nedgraderet, mens elever fra rigere skoler var mere tilbøjelige til at få deres score hævet."

Artiklen konkluderede: "Dårligt designede algoritmer risikerer at forankre en ny form for bias, der kan have konsekvenser, der rækker langt ud over universitetsplacering." Den britiske regering har siden opgivet algoritmen, efter massivt offentligt ramaskrig, herunder fra studerende, der klarede sig meget bedre på falske eksamener, end deres algoritmisk genererede resultater forudsagde.

For at undgå uretfærdige scenarier, der påvirker kursen i elevernes liv, bør forudsigende modeller ikke bruges til at træffe beslutninger med stor indflydelse, uden at folk med domæneekspertise gennemgår hvert resultat og har magten til at udfordre eller tilsidesætte dem. Disse modeller skal være så gennemsigtige og forklarlige som muligt, og deres data og metoder skal være fuldt dokumenteret og tilgængelige for gennemgang. Automatiserede forudsigelser kan informere menneskelige beslutningstagere, men bør ikke erstatte dem. Derudover bør forudsigelser altid sammenlignes med faktiske resultater, og modeller skal overvåges for at afgøre, hvornår de skal genoptrænes, givet den ændrede virkelighed.

I sidste ende, mens 2020 afslørede hårde sandheder om vores eksisterende systemer og modeller, præsenterer 2021 en mulighed for institutioner til at genkende fejl, tackle skævheder og nulstille tilgange. Den næste iteration af modeller vil være stærkere for det, og bedre information og indsigt kommer alle til gode.

Kilde: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Tidsstempel:

Mere fra Ed Surge