Kan högskolemodeller överleva pandemin?

Källnod: 820285

Även om många är angelägna om att glömma 2020, kommer dataforskare att hålla året i minnet när vi avgör om pandemins inverkan gör 2020-data avvikande eller en indikation på en mer permanent förändring i högre upplaga. När vi utvecklar nya prediktiva modeller och uppdaterar de befintliga med data som samlats in under det senaste året, kommer vi att behöva analysera dess effekter och bestämma hur tungt vi ska väga dessa data när vi försöker förutsäga vad som kommer härnäst.

Bortom dramatisk förändring av antalet studenter som sökte och skrev in förra året, även bekant data från ansökningsmaterial har blivit mindre tillgänglig, vilket gör det svårare för högskolor att förutse hur sökande och återkommande studenter sannolikt kommer att bete sig. På grund av svårigheterna som studenter hade att ta SAT eller ACT under pandemin, många institutioner har blivit testvalfria. Knappare examensdata och stor variation i antal, typ och tidpunkt för ansökningar och registreringar har gjort de välbekanta årscyklerna för högre ed-verksamheter mindre förutsägbara.

Antagningshandläggare och inskrivningsansvariga ställer sig flera frågor. Ska de förvänta sig att saker ska återgå till "normala" pre-COVID-mönster i år eller permanent ändra sina förväntningar? Ska de ändra antagnings- eller stipendiekriterier? Ska de kasta ut de prediktiva modellerna de tränade på tidigare data efter ett aldrig tidigare skådat år? Och om de behåller befintliga processer och verktyg, hur kan de arbeta med datavetare för att omkalibrera dem för att förbli användbara?

Jag tror att prediktiva modeller fortfarande erbjuder ett stort värde för universiteten. För det första kan modeller som tränats på tidigare data vara särskilt användbara för att förstå hur verkligheten skilde sig från förväntningarna. Men det senaste året har avslöjat hur viktigt det är att vi till fullo förstår "hur" och "varför" av de förutsägelser som dessa verktyg gör om "vem" som mest sannolikt kommer att registrera sig eller kan behöva ytterligare tjänster för att hjälpa dem att lyckas med en institution.

Vilka modeller fick fel och rätt

När jag bedömde modeller som jag byggde före COVID-19 fann jag de pandemikatalyserade trenderna och sambanden som modellen hade identifierat i tidigare data. I huvudsak gjorde den sunda förutsägelser, men förutsåg inte hastighet och skala.

Ett exempel är förhållandet mellan otillfredsställt ekonomiskt behov och studentretention. Studenter som har behov som inte täcks av ekonomiskt stöd tenderar att återregistrera sig till lägre priser. Det mönstret verkar ha fortsatt under pandemin, och modeller identifierade ofta korrekt vilka studenter som löpte störst risk att inte anmäla sig till nästa termin på grund av ekonomiska problem.

Men i samband med krisen kan modellerna också ha varit alltför optimistiska om sannolikheten för att andra studenter kommer tillbaka. I takt med att fler familjers ekonomiska framtid blev mindre säker, kan ekonomiska behov som inte tillgodoses genom lån, stipendier och bidrag ha haft en större inverkan än vanligt på studenters beslut att inte återregistrera sig. Det kan hjälpa till att förklara varför den totala retentionsgraden minskade kraftigare under 2020 än vad modellerna förväntade sig vid många institutioner.

En modell som genererar retentionssannolikhetspoäng med en mer "black box" (mindre förklarlig) tillvägagångssätt, och utan ytterligare sammanhang om vilka variabler den väger tyngst, ger färre värdefulla insikter för att hjälpa institutioner att hantera nu förstärkta retentionsrisker. Institutioner som förlitar sig på denna typ av modell har mindre förståelse för hur pandemin påverkade resultatet av deras förutsägelser. Det gör det svårare att avgöra om och under vilka omständigheter man ska fortsätta använda dem.

Bara för att en prediktiv modell fungerar bra och är förklarlig betyder det naturligtvis inte att den och systemet den representerar är undantagna från djupgående granskning. Det är förmodligen en bra sak att vi måste ta en mer titt på våra modellers produktion och avgöra för vilka modeller är och inte presterar bra under våra nya omständigheter.

Om rika familjer bättre kan "rida ut" pandemin, kan studenter från dessa familjer registrera sig närmare pre-pandemin. I sin tur förutsäger modeller deras inskrivning väl. Men familjer för vilka viruset utgör en högre hälsorisk eller ekonomisk risk kan fatta andra beslut om att skicka sina barn till college under pandemin, även om deras nuvarande status inte har förändrats "på pappret" eller i de datamängder som modellen använder. Att identifiera grupper för vilka modellers förutsägelser är mindre exakta i svåra tider framhäver faktorer som är okända för modellen och som påverkar eleverna i verkligheten.

Utmanande algoritmisk bias

Det är ännu viktigare att identifiera de människor som modeller förbiser eller felkarakteriserar i en tid då samhälleliga orättvisor är särskilt synliga och skadliga. Marginaliserade samhällen bär bördan av de hälsomässiga och ekonomiska konsekvenserna av covid-19. Det finns historiska sociala fördomar "bakade in i" våra data och modelleringssystem och maskiner som accelererar och utökar befintliga processer vidmakthåller ofta dessa fördomar. Prediktiva modeller och mänskliga dataforskare bör samarbeta för att säkerställa att sociala sammanhang och andra väsentliga faktorer informerar algoritmiska utdata.

Till exempel, förra året, ersatte en algoritm brittiska högskoleprov, som förmodligen förutsäger hur eleverna skulle klara sig på ett prov om de hade gjort det. Algoritmen gav mycket kontroversiella resultat.

Lärare uppskattade hur deras elever skulle ha presterat på proven, och sedan justerade algoritmerna dessa mänskliga förutsägelser baserat på historiska prestationer för elever från varje skola. Som Axios rapporterade, "De största offren var elever med höga betyg från mindre gynnade skolor, som var mer benägna att få sina poäng nedgraderade, medan elever från rikare skolor var mer benägna att få sina poäng höjda."

Artikeln avslutade: "Dåligt utformade algoritmer riskerar att befästa en ny form av partiskhet som kan ha effekter som går långt utöver universitetsplacering." Den brittiska regeringen har sedan dess övergett algoritmen, efter massiva offentliga protester, inklusive från studenter som presterade mycket bättre på skenprov än vad deras algoritmiskt genererade resultat förutspått.

För att undvika orättvisa scenarier som påverkar kursen i elevernas liv bör inte prediktiva modeller användas för att fatta beslut med stor inverkan utan att personer med domänexpertis granskar varje resultat och har makten att utmana eller åsidosätta dem. Dessa modeller måste vara så transparenta och förklarliga som möjligt, och deras data och metoder måste vara fullständigt dokumenterade och tillgängliga för granskning. Automatiserade förutsägelser kan informera mänskliga beslutsfattare, men bör inte ersätta dem. Dessutom bör förutsägelser alltid jämföras med faktiska utfall, och modeller måste övervakas för att avgöra när de behöver omskolas, givet förändrad verklighet.

I slutändan, medan 2020 avslöjade hårda sanningar om våra befintliga system och modeller, erbjuder 2021 en möjlighet för institutioner att känna igen brister, ta itu med fördomar och återställa tillvägagångssätt. Nästa iteration av modeller kommer att vara starkare för det, och bättre information och insikter gynnar alla.

Källa: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Tidsstämpel:

Mer från Ed Surge