大学的预测模型能否在大流行中幸存?

源节点: 820285

尽管许多人都渴望忘记 2020 年,但当我们确定大流行的影响是否使 2020 年的数据变得异常或预示着高等教育领域发生更永久性的变化时,数据科学家将把这一年放在首位。当我们开发新的预测模型并使用去年收集的数据更新现有模型时,我们将需要分析其影响并决定在尝试预测接下来会发生什么时对这些数据进行多大程度的权衡。

超越 去年申请和入学的学生人数发生了巨大变化,即使是申请材料中熟悉的数据也变得越来越少,这使得大学更难以预测申请人和回国学生可能的行为。由于疫情期间学生参加 SAT 或 ACT 考试遇到困难, 许多机构已经选择考试可选。考试数据的稀缺以及申请和注册的数量、类型和时间的巨大变化使得人们熟悉的高等教育运营年度周期变得更加难以预测。

招生官员和招生经理正在问自己几个问题。他们是否应该期望今年的情况恢复到新冠疫情前的“正常”模式,还是永久改变他们的期望?他们应该改变录取或奖学金标准吗?在经历了前所未有的一年之后,他们是否应该抛弃根据过去数据训练的预测模型?如果他们保留现有的流程和工具,他们如何与数据科学家合作重新校准它们以保持有用?

我相信预测模型仍然为大学提供了很多价值。一方面,根据过去的数据训练的模型对于理解现实与预期有何不同特别有用。但去年的情况表明,我们充分了解这些工具对“谁”最有可能注册或可能需要额外服务来帮助他们成功注册的预测的“方式”和“原因”是多么重要。机构。

模型的哪些错误和正确

在评估我在 COVID-19 之前构建的模型时,我发现该模型在过去的数据中确定了流行病催化的趋势和相关性。从本质上讲,它做出了合理的预测,但没有预见到速度和规模。

一个例子是未满足的财务需求与学生保留率之间的关系。那些有经济援助未涵盖需求的学生往往会以较低的价格重新入学。这种模式似乎在大流行期间持续存在,模型经常正确地识别出哪些学生最有可能因财务问题而无法在下一学期入学。

然而,在危机的背景下,这些模型也可能对其他学生返校的可能性过于乐观。随着越来越多家庭的财务前景变得更加不确定,贷款、奖学金和助学金无法解决的财务需求可能对学生不重新入学的决定产生比平常更大的影响。这可能有助于解释为什么 2020 年总体留存率下降幅度比许多机构的模型预期的要大。

如果模型采用更“黑匣子”(难以解释)的方法生成保留可能性分数,并且没有关于其权重最大的变量的额外背景,则无法提供有价值的见解来帮助机构解决现在放大的保留风险。依赖此类模型的机构不太了解这种流行病如何影响其预测结果。这使得确定是否以及在什么情况下继续使用它们变得更加困难。

当然,仅仅因为预测模型表现良好且可解释,并不意味着它及其代表的系统可以免于深入检查。我们必须更仔细地审视模型的输出,并确定模型在新环境下对哪些人表现良好,哪些人表现不佳,这可能是一件好事。

如果富裕家庭能够更好地“渡过”疫情,这些家庭的学生入学率可能会更接近大流行前的水平。反过来,模型可以很好地预测他们的入学情况。但是,对于病毒带来较高健康或经济风险的家庭来说,在大流行期间送孩子上大学可能会做出不同的决定,即使他们目前的状态“纸上”或模型使用的数据集中没有改变。识别模型在困难时期预测不太准确的群体突出了模型未知的因素,这些因素对学生产生了现实影响。

挑战算法偏差

在社会不平等现象特别明显和有害的时候,识别那些被模型忽视或错误描述的人就显得尤为重要。边缘化社区首当其冲地受到 COVID-19 的健康和财务影响。有 历史社会偏见“融入”我们的数据 加速和扩展现有流程的建模系统和机器往往会延续这些​​偏见。预测模型和人类数据科学家应该协同工作,以确保社会背景和其他基本因素为算法输出提供信息。

例如,去年,一种​​算法取代了英国大学入学考试,据称可以预测学生参加考试后的表现。该算法产生了极具争议的结果。

教师估计学生在考试中的表现,然后算法根据每所学校学生的历史表现调整这些人类预测。作为 爱可信报道“最大的受害者是来自弱势学校的高分学生,他们的分数更有可能被降级,而来自富裕学校的学生更有可能被提高分数。”

文章的结论是:“设计不当的算法可能会巩固一种新形式的偏见,其影响可能远远超出大学安置的范围。”在公众强烈抗议后,英国政府放弃了该算法,其中包括那些在模拟考试中表现比算法生成的预测结​​果好得多的学生。

为了避免影响学生生活轨迹的不公平情况,如果没有领域专业知识的人审查每个结果并有权挑战或推翻它们,则不应使用预测模型来做出高影响力的决策。这些模型必须尽可能透明和可解释,并且其数据和方法必须完整记录并可供审查。自动预测可以为人类决策者提供信息,但不应取代他们。此外,预测应始终与实际结果进行比较,并且必须监控模型,以确定在现实不断变化的情况下何时需要重新训练模型。

最终,虽然 2020 年暴露了我们现有系统和模型的残酷事实,但 2021 年为机构提供了一个认识缺陷、解决偏见和重置方法的机会。下一次迭代的模型将变得更加强大,更好的信息和见解将使每个人受益。

资料来源:https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

时间戳记:

更多来自 埃德·瑟吉