Können College-Vorhersagemodelle die Pandemie überleben?

Quellknoten: 820285

Obwohl viele das Jahr 2020 gerne vergessen möchten, werden Datenwissenschaftler das Jahr im Auge behalten, während wir feststellen, ob die Auswirkungen der Pandemie dazu führen, dass die Daten für 2020 anomal sind oder ein Hinweis auf dauerhaftere Veränderungen in der Hochschulbildung sind. Während wir neue Vorhersagemodelle entwickeln und die bestehenden mit den im letzten Jahr gesammelten Daten aktualisieren, müssen wir deren Auswirkungen analysieren und entscheiden, wie stark wir diese Daten gewichten, wenn wir versuchen, vorherzusagen, was als nächstes kommt.

Beyond dramatische Veränderung bei der Zahl der Studierenden, die sich im letzten Jahr beworben und eingeschrieben habenSelbst bekannte Daten aus Bewerbungsunterlagen sind weniger verfügbar, was es für Hochschulen schwieriger macht, vorherzusagen, wie sich Bewerber und zurückkehrende Studierende voraussichtlich verhalten werden. Aufgrund der Schwierigkeiten, die Studierende während der Pandemie beim SAT oder ACT hatten, Viele Institutionen haben Tests optional eingeführt. Knappere Prüfungsdaten und große Unterschiede in der Anzahl, Art und dem Zeitpunkt der Bewerbungen und Einschreibungen haben dazu geführt, dass die bekannten jährlichen Zyklen des Hochschulbetriebs weniger vorhersehbar sind.

Zulassungsbeauftragte und Einschreibungsmanager stellen sich mehrere Fragen. Sollten sie damit rechnen, dass die Dinge in diesem Jahr zum „normalen“ Vor-COVID-Muster zurückkehren, oder ihre Erwartungen dauerhaft ändern? Sollten sie die Zulassungs- oder Stipendienkriterien ändern? Sollten sie nach einem beispiellosen Jahr die Vorhersagemodelle verwerfen, die sie anhand vergangener Daten trainiert haben? Und wenn sie bestehende Prozesse und Tools beibehalten, wie können sie dann mit Datenwissenschaftlern zusammenarbeiten, um diese neu zu kalibrieren, damit sie weiterhin nützlich bleiben?

Ich glaube, dass Vorhersagemodelle für Universitäten immer noch einen großen Wert bieten. Einerseits können Modelle, die auf Daten aus der Vergangenheit trainiert wurden, besonders nützlich sein, um zu verstehen, wie die Realität von den Erwartungen abweicht. Aber das letzte Jahr hat gezeigt, wie wichtig es ist, dass wir das „Wie“ und das „Warum“ der Vorhersagen, die diese Tools darüber treffen, vollständig verstehen, „wer“ sich am wahrscheinlichsten einschreiben wird oder möglicherweise zusätzliche Dienste benötigt, um erfolgreich zu sein Institution.

Welche Modelle falsch und richtig gelaufen sind

Bei der Bewertung von Modellen, die ich vor COVID-19 erstellt hatte, entdeckte ich die pandemiebedingten Trends und Korrelationen, die das Modell in früheren Daten identifiziert hatte. Im Wesentlichen machte es fundierte Vorhersagen, rechnete jedoch nicht mit Geschwindigkeit und Umfang.

Ein Beispiel ist der Zusammenhang zwischen unerfülltem finanziellen Bedarf und der Bindung von Studierenden. Studierende, deren Bedarf nicht durch die finanzielle Unterstützung gedeckt ist, melden sich tendenziell zu niedrigeren Sätzen wieder ein. Dieses Muster scheint sich auch während der Pandemie fortgesetzt zu haben, und Modelle haben häufig korrekt ermittelt, bei welchen Studierenden das größte Risiko besteht, sich aus finanziellen Gründen nicht im nächsten Semester einzuschreiben.

Doch im Kontext der Krise waren die Modelle möglicherweise auch zu optimistisch, was die Wahrscheinlichkeit der Rückkehr anderer Studenten angeht. Da die finanzielle Zukunft von immer mehr Familien unsicherer wurde, hatte ein finanzieller Bedarf, der nicht durch Darlehen, Stipendien und Zuschüsse gedeckt wurde, möglicherweise einen größeren Einfluss als üblich auf die Entscheidung der Studierenden, sich nicht erneut einzuschreiben. Dies könnte erklären, warum die Gesamtbindungsquote im Jahr 2020 stärker gesunken ist als von vielen Institutionen erwartet.

Ein Modell, das Bindungswahrscheinlichkeitswerte mit einem eher „Black-Box“-Ansatz (weniger erklärbaren Ansatz) und ohne zusätzlichen Kontext darüber, welche Variablen es am stärksten gewichtet, generiert, liefert weniger wertvolle Erkenntnisse, um Institutionen bei der Bewältigung der jetzt erhöhten Bindungsrisiken zu unterstützen. Institutionen, die sich auf diese Art von Modellen verlassen, haben weniger Verständnis dafür, wie sich die Pandemie auf die Ergebnisse ihrer Vorhersagen ausgewirkt hat. Dadurch wird es schwieriger zu entscheiden, ob und unter welchen Umständen sie weiterhin verwendet werden sollten.

Nur weil ein Vorhersagemodell gut funktioniert und erklärbar ist, bedeutet das natürlich nicht, dass es und das System, das es darstellt, von einer eingehenden Prüfung ausgenommen sind. Es ist wahrscheinlich eine gute Sache, dass wir uns die Leistung unserer Modelle genauer ansehen und feststellen müssen, für wen die Modelle unter unseren neuen Umständen eine gute Leistung erbringen und für welche nicht.

Wenn wohlhabende Familien die Pandemie besser „überstehen“ können, könnten sich die Studierenden aus diesen Familien eher auf dem Niveau vor der Pandemie einschreiben. Im Gegenzug können Modelle ihre Einschreibung gut vorhersagen. Aber Familien, für die das Virus ein höheres gesundheitliches oder wirtschaftliches Risiko darstellt, könnten während der Pandemie andere Entscheidungen darüber treffen, ihre Kinder aufs College zu schicken, selbst wenn sich ihr aktueller Status „auf dem Papier“ oder in den vom Modell verwendeten Datensätzen nicht geändert hat. Durch die Identifizierung von Gruppen, für die die Vorhersagen der Modelle in schwierigen Zeiten weniger genau sind, werden Faktoren hervorgehoben, die dem Modell unbekannt sind und sich auf die Schüler in der realen Welt auswirken.

Herausfordernde algorithmische Verzerrung

Umso wichtiger ist es, diejenigen Menschen zu identifizieren, die Models übersehen oder falsch darstellen, und zwar in einer Zeit, in der gesellschaftliche Ungleichheiten besonders sichtbar und schädlich sind. Marginalisierte Gemeinschaften tragen die Hauptlast der gesundheitlichen und finanziellen Auswirkungen von COVID-19. Es gibt Historische soziale Vorurteile sind in unsere Daten „eingebrannt“. und Modellierungssysteme sowie Maschinen, die bestehende Prozesse beschleunigen und erweitern, halten diese Vorurteile oft aufrecht. Vorhersagemodelle und menschliche Datenwissenschaftler sollten zusammenarbeiten, um sicherzustellen, dass der soziale Kontext und andere wesentliche Faktoren die algorithmischen Ergebnisse beeinflussen.

Letztes Jahr ersetzte beispielsweise ein Algorithmus die Aufnahmeprüfungen für britische Hochschulen und soll angeblich vorhersagen, wie Studenten bei einer Prüfung abschneiden würden, wenn sie sie bestanden hätten. Der Algorithmus lieferte äußerst kontroverse Ergebnisse.

Die Lehrer schätzten, wie ihre Schüler bei den Prüfungen abgeschnitten hätten, und dann passten die Algorithmen diese menschlichen Vorhersagen auf der Grundlage der historischen Leistungen der Schüler jeder Schule an. Als Axios berichtet„Die größten Opfer waren Schüler mit guten Noten aus benachteiligten Schulen, deren Noten eher herabgestuft wurden, während bei Schülern aus wohlhabenderen Schulen die Wahrscheinlichkeit höher war, dass ihre Noten angehoben wurden.“

Der Artikel kam zu dem Schluss: „Schlecht konzipierte Algorithmen bergen das Risiko, eine neue Form der Voreingenommenheit zu etablieren, deren Auswirkungen weit über die Platzierung an Universitäten hinausgehen könnten.“ Die britische Regierung hat den Algorithmus inzwischen aufgegeben, nachdem es massiven öffentlichen Aufschrei gegeben hatte, unter anderem von Studenten, die bei Probeprüfungen viel besser abschnitten, als ihre algorithmisch generierten Ergebnisse vorhergesagt hatten.

Um unfaire Szenarien zu vermeiden, die sich auf den Verlauf des Lebens der Studierenden auswirken, sollten Vorhersagemodelle nicht verwendet werden, um Entscheidungen mit großer Auswirkung zu treffen, ohne dass Personen mit Fachkenntnissen jedes Ergebnis überprüfen und die Macht haben, sie in Frage zu stellen oder außer Kraft zu setzen. Diese Modelle müssen möglichst transparent und erklärbar sein, ihre Daten und Methoden müssen vollständig dokumentiert und zur Überprüfung verfügbar sein. Automatisierte Vorhersagen können menschliche Entscheidungsträger informieren, sollten diese aber nicht ersetzen. Darüber hinaus sollten Vorhersagen immer mit den tatsächlichen Ergebnissen verglichen werden, und Modelle müssen überwacht werden, um festzustellen, wann sie angesichts der sich ändernden Realität neu trainiert werden müssen.

Während das Jahr 2020 letztendlich harte Wahrheiten über unsere bestehenden Systeme und Modelle ans Licht brachte, bietet das Jahr 2021 den Institutionen die Gelegenheit, Mängel zu erkennen, Vorurteile anzugehen und Ansätze neu zu gestalten. Die nächste Iteration von Modellen wird dafür stärker sein und bessere Informationen und Erkenntnisse kommen allen zugute.

Quelle: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Zeitstempel:

Mehr von Ed Surge