Les modèles prédictifs des collèges peuvent-ils survivre à la pandémie?

Nœud source: 820285

Bien que beaucoup soient impatients d'oublier 2020, les scientifiques des données garderont l'année en tête pour déterminer si l'impact de la pandémie rend les données de 2020 anormales ou une indication d'un changement plus permanent dans l'enseignement supérieur. Au fur et à mesure que nous développons de nouveaux modèles prédictifs et que nous mettons à jour les modèles existants avec les données collectées l'année dernière, nous devrons analyser leurs effets et décider du poids de ces données lorsque nous tenterons de prédire ce qui va suivre.

Au-delà changement radical du nombre d'étudiants qui ont postulé et se sont inscrits l'année dernière, même les données familières des documents de candidature sont devenues moins disponibles, ce qui rend plus difficile pour les collèges d'anticiper le comportement des candidats et des étudiants qui reviennent. En raison de la difficulté des élèves à passer le SAT ou l'ACT pendant la pandémie, de nombreux établissements ont opté pour les tests. La rareté des données d'examen et la forte variation du nombre, du type et du moment des demandes et des inscriptions ont rendu les cycles annuels familiers des opérations d'enseignement supérieur moins prévisibles.

Les responsables des admissions et les responsables des inscriptions se posent plusieurs questions. Devraient-ils s'attendre à ce que les choses reviennent aux schémas pré-COVID «normaux» cette année ou modifient de façon permanente leurs attentes? Devraient-ils changer les critères d'admission ou de bourse? Devraient-ils jeter les modèles prédictifs qu'ils ont formés sur les données passées après une année sans précédent? Et s'ils conservent les processus et outils existants, comment peuvent-ils travailler avec les data scientists pour les recalibrer afin qu'ils restent utiles?

Je pense que les modèles prédictifs offrent encore beaucoup de valeur aux universités. D'une part, les modèles formés sur des données passées peuvent être particulièrement utiles pour comprendre en quoi la réalité diffère des attentes. Mais l'année dernière a révélé à quel point il est important que nous comprenions pleinement le «comment» et le «pourquoi» des prédictions que ces outils font sur «qui» est le plus susceptible de s'inscrire ou pourrait avoir besoin de services supplémentaires pour les aider à réussir institution.

Quels modèles ont eu tort et raison

Lors de l'évaluation des modèles que j'ai construits avant le COVID-19, j'ai trouvé les tendances et les corrélations catalysées par la pandémie que le modèle avait identifiées dans les données antérieures. Essentiellement, il a fait de bonnes prédictions, mais n'a pas prévu de taux et d'échelle.

Un exemple est la relation entre les besoins financiers non satisfaits et la rétention des étudiants. Les étudiants qui ont des besoins qui ne sont pas couverts par une aide financière ont tendance à se réinscrire à des taux inférieurs. Cette tendance semble s'être poursuivie pendant la pandémie et les modèles ont souvent correctement identifié les étudiants qui risquaient le plus de ne pas s'inscrire au trimestre suivant en raison de problèmes financiers.

Pourtant, dans le contexte de la crise, les modèles peuvent également avoir été trop optimistes quant à la probabilité que d'autres étudiants reviennent. À mesure que l'avenir financier d'un plus grand nombre de familles devenait moins certain, les besoins financiers qui n'étaient pas comblés par des prêts, des bourses et des subventions pourraient avoir eu un impact plus important que d'habitude sur la décision des étudiants de ne pas se réinscrire. Cela pourrait aider à expliquer pourquoi les taux globaux de rétention ont diminué plus fortement en 2020 que les modèles prévus dans de nombreux établissements.

Un modèle qui génère des scores de probabilité de rétention avec une approche plus «boîte noire» (moins explicable), et sans contexte supplémentaire sur les variables qu'il pèse le plus lourd, fournit moins d'informations utiles pour aider les institutions à faire face aux risques de rétention désormais amplifiés. Les institutions qui s'appuient sur ce type de modèle comprennent moins bien comment la pandémie a affecté la sortie de leurs prévisions. Cela rend plus difficile de déterminer si, et dans quelles circonstances, continuer à les utiliser.

Ce n'est pas parce qu'un modèle prédictif fonctionne bien et qu'il est explicable, bien sûr, que lui et le système qu'il représente sont exemptés d'un examen approfondi. C'est probablement une bonne chose que nous devions examiner de plus près la production de nos modèles et déterminer pour qui les modèles fonctionnent et ne fonctionnent pas bien dans nos nouvelles circonstances.

Si les familles riches peuvent mieux «surmonter» la pandémie, les étudiants de ces familles pourraient s'inscrire plus près des taux prépandémiques. À leur tour, les modèles prédisent bien leur inscription. Mais les familles pour lesquelles le virus présente un risque sanitaire ou économique plus élevé pourraient prendre des décisions différentes concernant l'envoi de leurs enfants à l'université pendant la pandémie, même si leur statut actuel n'a pas changé «sur papier» ou dans les ensembles de données utilisés par le modèle. L'identification des groupes pour lesquels les prévisions des modèles sont moins précises dans les moments difficiles met en évidence des facteurs inconnus du modèle, qui ont un impact réel sur les étudiants.

Contestation du biais algorithmique

Il est encore plus vital d'identifier les personnes que les modèles négligent ou dénaturent à un moment où les inégalités sociétales sont particulièrement visibles et nuisibles. Les communautés marginalisées supportent le plus gros des impacts sanitaires et financiers du COVID-19. Il y a préjugés sociaux historiques «ancrés dans» nos données et les systèmes de modélisation, et les machines qui accélèrent et étendent les processus existants perpétuent souvent ces biais. Les modèles prédictifs et les scientifiques des données humaines devraient travailler de concert pour garantir que le contexte social et d'autres facteurs essentiels informent les résultats algorithmiques.

Par exemple, l'année dernière, un algorithme a remplacé les examens d'entrée au Royaume-Uni, supposant prédire comment les étudiants réussiraient à un examen s'ils l'avaient passé. L'algorithme a produit des résultats très controversés.

Les enseignants ont estimé les performances de leurs élèves aux examens, puis les algorithmes ont ajusté ces prédictions humaines en fonction des performances historiques des élèves de chaque école. Comme Axios rapporté, «Les plus grandes victimes étaient les élèves avec des notes élevées des écoles moins favorisées, qui étaient plus susceptibles de voir leurs notes abaissées, tandis que les étudiants des écoles plus riches étaient plus susceptibles de voir leurs notes augmentées.»

L'article concluait: «Des algorithmes mal conçus risquent d'enraciner une nouvelle forme de biais qui pourrait avoir des impacts qui vont bien au-delà du placement universitaire.» Le gouvernement britannique a depuis abandonné l'algorithme, après un tollé public massif, y compris de la part d'étudiants qui ont obtenu de bien meilleurs résultats aux examens simulés que les résultats générés par l'algorithme ne l'avaient prédit.

Pour éviter les scénarios injustes qui affectent la trajectoire de la vie des étudiants, les modèles prédictifs ne devraient pas être utilisés pour prendre des décisions à fort impact sans que des personnes ayant une expertise du domaine examinent chaque résultat et aient le pouvoir de les remettre en question ou de les ignorer. Ces modèles doivent être aussi transparents et explicables que possible, et leurs données et méthodes doivent être entièrement documentées et disponibles pour examen. Les prédictions automatisées peuvent informer les décideurs humains, mais ne doivent pas les remplacer. De plus, les prévisions doivent toujours être comparées aux résultats réels et les modèles doivent être surveillés pour déterminer quand ils doivent être recyclés, compte tenu de l'évolution de la réalité.

En fin de compte, alors que 2020 a révélé des vérités solides sur nos systèmes et modèles existants, 2021 offre aux institutions l'occasion de reconnaître les failles, de lutter contre les biais et de réinitialiser les approches. La prochaine itération de modèles sera plus solide pour cela, et de meilleures informations et perspectives profiteront à tout le monde.

Source : https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Horodatage:

Plus de Ed Surge