Os modelos preditivos da faculdade podem sobreviver à pandemia?

Nó Fonte: 820285

Embora muitos estejam ansiosos por esquecer 2020, os cientistas de dados manterão o ano em mente enquanto determinam se o impacto da pandemia torna os dados de 2020 anómalos ou uma indicação de mudanças mais permanentes no ensino superior. À medida que desenvolvemos novos modelos preditivos e atualizamos os existentes com dados recolhidos no último ano, precisaremos de analisar os seus efeitos e decidir até que ponto pesar esses dados ao tentar prever o que virá a seguir.

Pós mudança dramática no número de alunos que se inscreveram e matricularam no ano passado, mesmo os dados familiares dos materiais de inscrição tornaram-se menos disponíveis, tornando mais difícil para as faculdades prever como os candidatos e os alunos que retornam provavelmente se comportarão. Devido à dificuldade que os alunos tiveram em fazer o SAT ou ACT durante a pandemia, muitas instituições optaram pelo teste opcional. Os dados de exames mais escassos e a grande variação no número, tipo e calendário das candidaturas e matrículas tornaram os familiares ciclos anuais das operações de ensino superior menos previsíveis.

Os oficiais de admissões e gerentes de matrículas estão se fazendo várias perguntas. Deverão esperar que as coisas voltem aos padrões “normais” pré-COVID este ano ou alterem permanentemente as suas expectativas? Eles deveriam mudar os critérios de admissão ou de bolsa? Deveriam descartar os modelos preditivos que treinaram com base em dados anteriores, após um ano sem precedentes? E se mantiverem os processos e ferramentas existentes, como poderão trabalhar com cientistas de dados para recalibrá-los e continuarem úteis?

Acredito que os modelos preditivos ainda oferecem muito valor para as universidades. Por um lado, os modelos treinados em dados passados ​​podem ser especialmente úteis para compreender como a realidade difere das expectativas. Mas o ano passado revelou quão importante é compreendermos plenamente o “como” e o “porquê” das previsões que estas ferramentas fazem sobre “quem” tem maior probabilidade de se inscrever ou pode precisar de serviços adicionais para ajudá-los a ter sucesso num determinado nível. instituição.

Quais modelos deram certo e errado

Ao avaliar os modelos que construí antes da COVID-19, encontrei as tendências e correlações catalisadas pela pandemia que o modelo identificou em dados anteriores. Essencialmente, fez previsões sólidas, mas não antecipou taxa e escala.

Um exemplo é a relação entre necessidades financeiras não atendidas e retenção de alunos. Os alunos que têm necessidades não cobertas pelo auxílio financeiro tendem a se reinscrever com taxas mais baixas. Esse padrão parece ter continuado durante a pandemia, e os modelos muitas vezes identificaram corretamente quais os alunos que corriam maior risco de não se matricularem no próximo semestre devido a questões financeiras.

No entanto, no contexto da crise, os modelos também podem ter sido excessivamente optimistas quanto à probabilidade de regresso de outros estudantes. À medida que o futuro financeiro de mais famílias se tornou menos certo, as necessidades financeiras que não foram satisfeitas através de empréstimos, bolsas de estudo e subvenções podem ter tido um impacto maior do que o habitual nas decisões dos estudantes de não se reinscreverem. Isto poderia ajudar a explicar por que razão as taxas de retenção globais diminuíram mais acentuadamente em 2020 do que os modelos previstos em muitas instituições.

Um modelo que gera pontuações de probabilidade de retenção com uma abordagem mais “caixa preta” (menos explicável) e sem contexto adicional sobre quais variáveis ​​pesa mais, fornece menos informações valiosas para ajudar as instituições a lidar com os riscos de retenção agora ampliados. As instituições que dependem deste tipo de modelo têm menos compreensão de como a pandemia afetou o resultado das suas previsões. Isso torna mais difícil determinar se, e em que circunstâncias, continuar a utilizá-los.

Só porque um modelo preditivo funciona bem e é explicável não significa, é claro, que ele e o sistema que ele representa estejam isentos de um exame profundo. Provavelmente é bom que devamos olhar mais atentamente para os resultados dos nossos modelos e determinar para quem os modelos têm ou não um bom desempenho nas nossas novas circunstâncias.

Se as famílias ricas conseguirem “superar” melhor a pandemia, os estudantes dessas famílias poderão matricular-se mais perto das taxas pré-pandemia. Por sua vez, os modelos prevêem bem a sua matrícula. Mas as famílias para as quais o vírus apresenta um maior risco económico ou de saúde poderão tomar decisões diferentes sobre enviar os seus filhos para a faculdade durante a pandemia, mesmo que a sua situação atual não tenha mudado “no papel” ou nos conjuntos de dados que o modelo utiliza. A identificação de grupos para os quais as previsões dos modelos são menos precisas em tempos difíceis destaca fatores desconhecidos do modelo, que têm impacto no mundo real sobre os alunos.

Desafiando o preconceito algorítmico

É ainda mais vital identificar as pessoas que os modelos ignoram ou descaracterizam numa altura em que as desigualdades sociais são especialmente visíveis e prejudiciais. As comunidades marginalizadas suportam o peso dos impactos sanitários e financeiros da COVID-19. Há preconceitos sociais históricos “incorporados” em nossos dados e modelar sistemas e máquinas que aceleram e ampliam processos existentes muitas vezes perpetuam esses preconceitos. Os modelos preditivos e os cientistas de dados humanos devem trabalhar em conjunto para garantir que o contexto social e outros fatores essenciais informem os resultados algorítmicos.

Por exemplo, no ano passado, um algoritmo substituiu os exames de admissão à faculdade no Reino Unido, supostamente prevendo como os alunos se sairiam em um exame caso o fizessem. O algoritmo produziu resultados altamente controversos.

Os professores estimaram o desempenho de seus alunos nos exames e, em seguida, os algoritmos ajustaram essas previsões humanas com base no desempenho histórico dos alunos de cada escola. Como Axios relataram, “As maiores vítimas foram alunos com notas altas de escolas menos favorecidas, que tinham maior probabilidade de ter suas notas rebaixadas, enquanto os alunos de escolas mais ricas tinham maior probabilidade de ter suas notas aumentadas”.

O artigo concluiu: “Algoritmos mal concebidos correm o risco de consolidar uma nova forma de preconceito que poderia ter impactos que vão muito além da colocação universitária”. Desde então, o governo britânico abandonou o algoritmo, após protestos públicos massivos, inclusive de estudantes que tiveram um desempenho muito melhor em exames simulados do que os resultados gerados por algoritmos previam.

Para evitar cenários injustos que afetem a trajetória de vida dos alunos, os modelos preditivos não devem ser usados ​​para tomar decisões de alto impacto sem que pessoas com experiência no domínio revisem cada resultado e tenham o poder de contestá-los ou anulá-los. Estes modelos devem ser tão transparentes e explicáveis ​​quanto possível, e os seus dados e métodos devem estar totalmente documentados e disponíveis para revisão. As previsões automatizadas podem informar os decisores humanos, mas não devem substituí-los. Além disso, as previsões devem ser sempre comparadas com os resultados reais e os modelos devem ser monitorizados para determinar quando precisam de ser retreinados, tendo em conta a mudança da realidade.

Em última análise, embora 2020 tenha exposto verdades duras sobre os nossos sistemas e modelos existentes, 2021 apresenta uma oportunidade para as instituições reconhecerem falhas, combaterem preconceitos e redefinirem abordagens. A próxima iteração de modelos será mais forte e melhores informações e insights beneficiarão a todos.

Fonte: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Carimbo de hora:

Mais de Ed Surto