¿Pueden los modelos predictivos universitarios sobrevivir a la pandemia?

Nodo de origen: 820285

Aunque muchos están ansiosos por olvidar 2020, los científicos de datos mantendrán el año en mente mientras determinamos si el impacto de la pandemia hace que los datos de 2020 sean anómalos o una indicación de un cambio más permanente en la educación superior. A medida que desarrollamos nuevos modelos predictivos y actualizamos los existentes con los datos recopilados en el último año, necesitaremos analizar sus efectos y decidir cuánto ponderar esos datos al intentar predecir lo que vendrá después.

Más allá de cambio dramático en la cantidad de estudiantes que solicitaron y se matricularon el año pasado, incluso los datos familiares de los materiales de solicitud se han vuelto menos disponibles, lo que dificulta que las universidades anticipen cómo es probable que se comporten los solicitantes y los estudiantes que regresan. Debido a la dificultad que tuvieron los estudiantes para tomar el SAT o ACT durante la pandemia, muchas instituciones han optado por la prueba opcional. Los datos de exámenes más escasos y la alta variación en la cantidad, el tipo y el momento de las solicitudes y las inscripciones han hecho que los ciclos anuales familiares de las operaciones de educación superior sean menos predecibles.

Los oficiales de admisiones y los gerentes de inscripción se están haciendo varias preguntas. ¿Deberían esperar que las cosas vuelvan a los patrones "normales" anteriores a COVID este año o alterar permanentemente sus expectativas? ¿Deberían cambiar los criterios de admisión o becas? ¿Deberían descartar los modelos predictivos que entrenaron con datos pasados ​​después de un año sin precedentes? Y si mantienen los procesos y las herramientas existentes, ¿cómo pueden trabajar con los científicos de datos para recalibrarlos y seguir siendo útiles?

Creo que los modelos predictivos todavía ofrecen mucho valor a las universidades. Por un lado, los modelos entrenados en datos pasados ​​pueden ser especialmente útiles para comprender cómo la realidad difiere de las expectativas. Pero el año pasado ha revelado cuán importante es que comprendamos completamente el "cómo" y el "por qué" de las predicciones que hacen estas herramientas sobre "quién" tiene más probabilidades de inscribirse o puede necesitar servicios adicionales para ayudarlos a tener éxito en un institución.

¿Qué modelos salieron mal y bien?

Al evaluar los modelos que construí antes de COVID-19, encontré que la pandemia catalizó tendencias y correlaciones que el modelo había identificado en datos anteriores. Básicamente, hizo predicciones sólidas, pero no anticipó la tasa y la escala.

Un ejemplo es la relación entre la necesidad financiera insatisfecha y la retención de estudiantes. Los estudiantes que tienen necesidades que no están cubiertas por la ayuda financiera tienden a reinscribirse a tasas más bajas. Ese patrón parece haber continuado durante la pandemia, y los modelos a menudo identificaron correctamente qué estudiantes estaban en mayor riesgo de no matricularse en el próximo período debido a problemas financieros.

Sin embargo, en el contexto de la crisis, los modelos también pueden haber sido demasiado optimistas sobre la probabilidad de que regresen otros estudiantes. A medida que el futuro financiero de más familias se volvió menos seguro, las necesidades financieras que no se abordaron con préstamos, becas y subvenciones pueden haber tenido un impacto mayor de lo habitual en las decisiones de los estudiantes de no volver a inscribirse. Eso podría ayudar a explicar por qué las tasas generales de retención disminuyeron más drásticamente en 2020 que los modelos anticipados en muchas instituciones.

Un modelo que genera puntuaciones de probabilidad de retención con un enfoque más de “caja negra” (menos explicable) y sin contexto adicional sobre qué variables pesa más, proporciona menos información valiosa para ayudar a las instituciones a abordar los riesgos de retención ahora amplificados. Las instituciones que se basan en este tipo de modelo tienen menos conocimiento de cómo la pandemia afectó el resultado de sus predicciones. Eso hace que sea más difícil determinar si, y bajo qué circunstancias, continuar usándolos.

El hecho de que un modelo predictivo funcione bien y sea explicable no significa, por supuesto, que él y el sistema que representa estén exentos de un examen profundo. Probablemente sea bueno que debamos analizar más detenidamente el resultado de nuestros modelos y determinar para quién los modelos funcionan bien y para quién no en nuestras nuevas circunstancias.

Si las familias adineradas pueden "sobrellevar" mejor la pandemia, los estudiantes de esas familias podrían matricularse más cerca de las tasas de pre-pandemia. A su vez, los modelos predicen bien su inscripción. Pero las familias para quienes el virus presenta un mayor riesgo económico o de salud pueden tomar decisiones diferentes sobre enviar a sus hijos a la universidad durante la pandemia, incluso si su estado actual no ha cambiado "en el papel" o en los conjuntos de datos que usa el modelo. La identificación de grupos para los que las predicciones de los modelos son menos precisas en tiempos difíciles resalta factores desconocidos para el modelo, que tienen un impacto en los estudiantes en el mundo real.

Desafiando el sesgo algorítmico

Es aún más vital identificar a aquellas personas a quienes los modelos pasan por alto o caracterizan erróneamente en un momento en que las desigualdades sociales son especialmente visibles y dañinas. Las comunidades marginadas son las más afectadas por los impactos económicos y de salud del COVID-19. Existen sesgos sociales históricos "incorporados" a nuestros datos y los sistemas de modelado y las máquinas que aceleran y amplían los procesos existentes a menudo perpetúan esos sesgos. Los modelos predictivos y los científicos de datos humanos deben trabajar en conjunto para garantizar que el contexto social y otros factores esenciales informen los resultados algorítmicos.

Por ejemplo, el año pasado, un algoritmo reemplazó los exámenes de ingreso a la universidad del Reino Unido, supuestamente prediciendo cómo les iría a los estudiantes en un examen si lo hubieran tomado. El algoritmo produjo resultados muy controvertidos.

Los maestros calcularon cómo se habrían desempeñado sus estudiantes en los exámenes, y luego los algoritmos ajustaron esas predicciones humanas basándose en el desempeño histórico de los estudiantes de cada escuela. Como Axios informado, "Las mayores víctimas fueron los estudiantes con calificaciones altas de las escuelas menos aventajadas, que tenían más probabilidades de que se rebajaran sus calificaciones, mientras que los estudiantes de las escuelas más ricas tenían más probabilidades de que se elevaran sus calificaciones".

El artículo concluía: "Los algoritmos mal diseñados corren el riesgo de afianzar una nueva forma de sesgo que podría tener impactos que van mucho más allá de la colocación universitaria". Desde entonces, el gobierno británico ha abandonado el algoritmo, después de una protesta pública masiva, incluso de los estudiantes que se desempeñaron mucho mejor en los exámenes simulados de lo que predijeron sus resultados generados algorítmicamente.

Para evitar escenarios injustos que afecten la trayectoria de la vida de los estudiantes, los modelos predictivos no deben usarse para tomar decisiones de alto impacto sin que personas con experiencia en el dominio revisen cada resultado y tengan el poder de desafiarlos o anularlos. Estos modelos deben ser lo más transparentes y explicables posible, y sus datos y métodos deben estar completamente documentados y disponibles para su revisión. Las predicciones automatizadas pueden informar a los tomadores de decisiones humanos, pero no deben reemplazarlos. Además, las predicciones siempre deben compararse con los resultados reales, y los modelos deben monitorearse para determinar cuándo deben volver a capacitarse, dada la realidad cambiante.

En última instancia, mientras que 2020 expuso duras verdades sobre nuestros sistemas y modelos existentes, 2021 presenta una oportunidad para que las instituciones reconozcan las fallas, aborden los sesgos y restablezcan los enfoques. La próxima iteración de modelos será más sólida y una mejor información y conocimientos beneficiará a todos.

Fuente: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Sello de tiempo:

Mas de Ed oleada