Kunnen voorspellende modellen van universiteiten de pandemie overleven?

Bronknooppunt: 820285

Hoewel velen 2020 graag willen vergeten, zullen datawetenschappers het jaar top of mind houden terwijl we bepalen of de impact van de pandemie de data voor 2020 afwijkend maakt of een indicatie is van een meer permanente verandering in het hoger onderwijs. Terwijl we nieuwe voorspellende modellen ontwikkelen en de bestaande bijwerken met gegevens die we het afgelopen jaar hebben verzameld, zullen we de effecten ervan moeten analyseren en moeten beslissen hoe zwaar we die gegevens moeten wegen als we proberen te voorspellen wat er daarna komt.

Verder dramatische verandering in het aantal studenten dat zich vorig jaar heeft aangemeld en ingeschrevenzijn zelfs bekende gegevens uit sollicitatiemateriaal minder beschikbaar geworden, waardoor het voor hogescholen moeilijker wordt om te anticiperen op hoe aanvragers en terugkerende studenten zich waarschijnlijk zullen gedragen. Vanwege de problemen die studenten tijdens de pandemie hadden met het volgen van de SAT of ACT, veel instellingen zijn test-optioneel geworden. Schaarsere examengegevens en grote variatie in het aantal, het type en de timing van aanvragen en inschrijvingen hebben de bekende jaarlijkse cycli van hoger onderwijs minder voorspelbaar gemaakt.

Toelatingsfunctionarissen en inschrijvingsmanagers stellen zichzelf een aantal vragen. Moeten ze verwachten dat de zaken dit jaar terugkeren naar de “normale” patronen van vóór de coronacrisis, of moeten ze hun verwachtingen definitief bijstellen? Moeten ze de toelatings- of beurscriteria wijzigen? Moeten ze de voorspellende modellen die ze op basis van gegevens uit het verleden hebben getraind, na een ongekend jaar weggooien? En als ze bestaande processen en tools behouden, hoe kunnen ze dan samenwerken met datawetenschappers om deze opnieuw te kalibreren zodat ze bruikbaar blijven?

Ik geloof dat voorspellende modellen nog steeds veel waarde bieden voor universiteiten. Om te beginnen kunnen modellen die zijn getraind op gegevens uit het verleden vooral nuttig zijn om te begrijpen hoe de werkelijkheid verschilde van de verwachtingen. Maar het afgelopen jaar is gebleken hoe belangrijk het is dat we het ‘hoe’ en het ‘waarom’ volledig begrijpen van de voorspellingen die deze tools doen over ‘wie’ zich het meest waarschijnlijk zal inschrijven of aanvullende diensten nodig heeft om hen te helpen slagen in een instelling.

Welke modellen er fout waren, en welke goed

Bij het beoordelen van modellen die ik vóór COVID-19 had gebouwd, ontdekte ik dat de pandemie trends en correlaties katalyseerde die het model in eerdere gegevens had geïdentificeerd. In wezen deed het goede voorspellingen, maar anticipeerde het niet op snelheid en schaal.

Een voorbeeld is de relatie tussen onvervulde financiële behoeften en het vasthouden van studenten. Studenten die een behoefte hebben die niet door financiële steun wordt gedekt, hebben de neiging zich tegen lagere tarieven opnieuw in te schrijven. Dat patroon lijkt zich tijdens de pandemie te hebben voortgezet, en modellen identificeerden vaak correct welke studenten het grootste risico liepen om zich vanwege financiële problemen niet in te schrijven voor het volgende semester.

Maar in de context van de crisis waren de modellen mogelijk ook te optimistisch over de waarschijnlijkheid dat andere studenten zouden terugkeren. Naarmate de financiële toekomst van meer gezinnen minder zeker werd, kan een financiële behoefte, waarin niet werd voorzien door leningen, beurzen en beurzen, een grotere impact dan normaal hebben gehad op de beslissing van studenten om zich niet opnieuw in te schrijven. Dat zou kunnen helpen verklaren waarom het totale retentiepercentage in 2020 scherper daalde dan de modellen die bij veel instellingen werden verwacht.

Een model dat retentiewaarschijnlijkheidsscores genereert met een meer “black box” (minder verklaarbare) benadering, en zonder aanvullende context over welke variabelen het zwaarst weegt, biedt minder waardevolle inzichten om instellingen te helpen de nu versterkte retentierisico’s aan te pakken. Instellingen die op dit soort modellen vertrouwen, hebben minder inzicht in de manier waarop de pandemie de uitkomst van hun voorspellingen heeft beïnvloed. Dat maakt het moeilijker om te bepalen of, en onder welke omstandigheden, het gebruik ervan moet worden voortgezet.

Het feit dat een voorspellend model goed presteert en verklaarbaar is, betekent uiteraard niet dat het model en het systeem dat het vertegenwoordigt, zijn vrijgesteld van diepgaand onderzoek. Het is waarschijnlijk een goede zaak dat we beter naar de resultaten van onze modellen moeten kijken en moeten bepalen voor wie de modellen wel en niet goed presteren onder onze nieuwe omstandigheden.

Als rijke families de pandemie beter kunnen ‘bestaan’, zouden studenten uit die families zich mogelijk dichter bij het pre-pandemische tarief kunnen inschrijven. Op hun beurt voorspellen modellen hun inschrijving goed. Maar gezinnen voor wie het virus een hoger gezondheids- of economisch risico met zich meebrengt, kunnen tijdens de pandemie andere beslissingen nemen over het sturen van hun kinderen naar de universiteit, zelfs als hun huidige status “op papier” of in de datasets die het model gebruikt, niet is veranderd. Door groepen te identificeren waarvoor de voorspellingen van modellen in moeilijke tijden minder nauwkeurig zijn, worden factoren benadrukt die onbekend zijn in het model en die een reële impact hebben op studenten.

Uitdagende algoritmische bias

Het is zelfs nog belangrijker om de mensen te identificeren die door modellen over het hoofd worden gezien of verkeerd worden gekarakteriseerd in een tijd waarin maatschappelijke ongelijkheid bijzonder zichtbaar en schadelijk is. Gemarginaliseerde gemeenschappen worden het zwaarst getroffen door de gezondheids- en financiële gevolgen van COVID-19. Er zijn historische sociale vooroordelen ‘ingebakken’ in onze gegevens en modelleringssystemen, en machines die bestaande processen versnellen en uitbreiden, houden deze vooroordelen vaak in stand. Voorspellende modellen en menselijke datawetenschappers moeten samenwerken om ervoor te zorgen dat de sociale context en andere essentiële factoren de algoritmische output beïnvloeden.

Vorig jaar verving een algoritme bijvoorbeeld de toelatingsexamens voor een Britse universiteit, die zogenaamd voorspelde hoe studenten het zouden doen op een examen als ze het hadden afgelegd. Het algoritme leverde zeer controversiële resultaten op.

Leraren schatten hoe hun leerlingen op de examens zouden hebben gepresteerd, en vervolgens pasten de algoritmen die menselijke voorspellingen aan op basis van de historische prestaties van leerlingen van elke school. Als Axios gemeld“De grootste slachtoffers waren studenten met hoge cijfers van minder bevoorrechte scholen, bij wie de score eerder verlaagd werd, terwijl bij studenten van rijkere scholen de score eerder verhoogd werd.”

Het artikel concludeerde: “Slecht ontworpen algoritmen riskeren een nieuwe vorm van vooringenomenheid te verankeren die gevolgen kan hebben die veel verder gaan dan universitaire plaatsing.” De Britse regering heeft het algoritme sindsdien verlaten, na massale publieke verontwaardiging, onder meer van studenten die veel beter presteerden op proefexamens dan hun algoritmisch gegenereerde resultaten voorspelden.

Om oneerlijke scenario's te vermijden die het traject van het leven van leerlingen beïnvloeden, mogen voorspellende modellen niet worden gebruikt om beslissingen met grote impact te nemen zonder dat mensen met domeinexpertise elk resultaat beoordelen en de macht hebben om deze in twijfel te trekken of terzijde te schuiven. Deze modellen moeten zo transparant en verklaarbaar mogelijk zijn, en hun gegevens en methoden moeten volledig gedocumenteerd en beschikbaar zijn voor beoordeling. Geautomatiseerde voorspellingen kunnen menselijke besluitvormers informeren, maar mogen deze niet vervangen. Bovendien moeten voorspellingen altijd worden vergeleken met werkelijke uitkomsten, en moeten modellen worden gemonitord om te bepalen wanneer ze opnieuw moeten worden getraind, gegeven de veranderende realiteit.

Terwijl 2020 harde waarheden over onze bestaande systemen en modellen aan het licht heeft gebracht, biedt 2021 uiteindelijk een kans voor instellingen om tekortkomingen te onderkennen, vooroordelen aan te pakken en benaderingen te resetten. De volgende reeks modellen zal er sterker voor zijn, en betere informatie en inzichten komen iedereen ten goede.

Bron: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Tijdstempel:

Meer van Ed Surger