Смогут ли модели прогнозирования колледжа пережить пандемию?

Исходный узел: 820285

Хотя многие стремятся забыть 2020 год, специалисты по данным будут держать этот год в центре внимания, когда мы будем определять, делает ли влияние пандемии аномальными данные за 2020 год или это показатель более постоянных изменений в высшем образовании. По мере того, как мы разрабатываем новые прогностические модели и обновляем существующие данными, собранными за последний год, нам нужно будет проанализировать его эффекты и решить, насколько серьезно эти данные взвешивать при попытке предсказать, что будет дальше.

Beyond резкое изменение количества студентов, подавших заявления и зачисленных в прошлом году, даже знакомые данные из материалов заявки стали менее доступными, из-за чего колледжам стало сложнее предугадывать поведение поступающих и вернувшихся студентов. Из-за того, что учащимся было трудно сдавать SAT или ACT во время пандемии, многие учреждения прошли тестирование по желанию. Более скудные данные об экзаменах и большая вариативность в количестве, типах и сроках подачи заявлений и зачислений сделали знакомые годовые циклы высших учебных заведений менее предсказуемыми.

Сотрудники приемных комиссий и менеджеры по зачислению задают себе несколько вопросов. Должны ли они ожидать, что в этом году ситуация вернется к «нормальным» образцам, существовавшим до COVID, или навсегда изменит их ожидания? Следует ли им изменить критерии приема или стипендии? Должны ли они выбросить прогностические модели, которые они тренировали на прошлых данных после беспрецедентного года? И если они сохранят существующие процессы и инструменты, как они могут работать с специалистами по обработке данных, чтобы откалибровать их, чтобы они оставались полезными?

Я считаю, что прогностические модели по-прежнему представляют большую ценность для университетов. Во-первых, модели, обученные на прошлых данных, могут быть особенно полезны для понимания того, как реальность отличается от ожиданий. Но прошлый год показал, насколько важно, чтобы мы полностью понимали, «как» и «почему» прогнозов, которые делают эти инструменты относительно того, «кто» с наибольшей вероятностью зарегистрируется или может нуждаться в дополнительных услугах, чтобы помочь им преуспеть в учреждение.

Какие модели были неправильными и правильными

При оценке моделей, которые я построил до COVID-19, я обнаружил тенденции и корреляции, вызванные пандемией, которые модель выявила в прошлых данных. По сути, он давал хорошие прогнозы, но не предполагал темпов и масштабов.

Одним из примеров является взаимосвязь между неудовлетворенными финансовыми потребностями и удержанием студентов. Студенты, нуждающиеся в помощи, не покрываемые финансовой помощью, как правило, повторно поступают по более низким ставкам. Эта модель, похоже, продолжалась во время пандемии, и модели часто правильно определяли, какие студенты больше всего рискуют не поступить в следующий семестр из-за финансовых проблем.

Тем не менее, в контексте кризиса модели также могли быть чрезмерно оптимистичными в отношении вероятности возвращения других студентов. По мере того, как финансовое будущее большего числа семей становилось менее определенным, финансовые потребности, которые не были удовлетворены с помощью займов, стипендий и грантов, могли иметь большее влияние, чем обычно, на решения студентов не повторно поступать. Это может помочь объяснить, почему общие показатели удержания снизились в 2020 году более резко, чем модели, ожидаемые во многих учреждениях.

Модель, которая генерирует оценки вероятности удержания с использованием более «черного ящика» (менее объяснимого) подхода и без дополнительного контекста о том, какие переменные она имеет наибольшее значение, дает меньше ценных идей, чтобы помочь учреждениям справиться с усилившимися в настоящее время рисками удержания. Учреждения, использующие этот тип модели, в меньшей степени понимают, как пандемия повлияла на результаты их прогнозов. Это затрудняет определение того, следует ли и при каких обстоятельствах продолжать их использовать.

Тот факт, что прогностическая модель работает хорошо и объяснима, конечно, не означает, что она и система, которую она представляет, не подлежат глубокому изучению. Вероятно, это хорошо, что мы должны внимательнее взглянуть на результаты наших моделей и определить, для кого модели работают, а какие не работают в наших новых обстоятельствах.

Если богатые семьи смогут лучше «пережить» пандемию, студенты из этих семей могут поступать ближе к докандемическому уровню. В свою очередь, модели хорошо предсказывают их зачисление. Но семьи, для которых вирус представляет более высокий риск для здоровья или экономики, могут принимать разные решения об отправке своих детей в колледж во время пандемии, даже если их текущий статус не изменился «на бумаге» или в наборах данных, которые использует модель. Выявление групп, для которых прогнозы моделей менее точны в трудные времена, позволяет выявить факторы, неизвестные модели, которые имеют реальное влияние на учащихся.

Проблема алгоритмического уклона

Еще более важно выявить тех людей, которых модели упускают из виду или неверно характеризуют в то время, когда социальное неравенство особенно заметно и пагубно. Маргинальные сообщества несут основную тяжесть последствий COVID-19 для здоровья и финансов. Есть исторические социальные предубеждения «впитались» в наши данные системы моделирования и машины, которые ускоряют и расширяют существующие процессы, часто закрепляют эти предубеждения. Прогнозные модели и специалисты по человеческим данным должны работать вместе, чтобы гарантировать, что социальный контекст и другие важные факторы влияют на алгоритмические результаты.

Например, в прошлом году алгоритм заменил вступительные экзамены в британские колледжи, якобы предсказывая, как учащиеся будут сдавать экзамен, если они его сдадут. Алгоритм дал весьма противоречивые результаты.

Учителя оценили, как их ученики могли бы сдать экзамены, а затем алгоритмы скорректировали эти человеческие прогнозы на основе исторической успеваемости учеников из каждой школы. В качестве Вардар сообщили«Самыми большими жертвами стали учащиеся с высокими оценками из менее обеспеченных школ, которые с большей вероятностью понизили свои оценки, в то время как учащиеся из более богатых школ с большей вероятностью получили свои оценки».

В статье делается вывод: «Плохо разработанные алгоритмы рискуют закрепить новую форму предвзятости, которая может иметь последствия, выходящие далеко за рамки поступления в университет». С тех пор британское правительство отказалось от алгоритма после массового протеста общественности, в том числе со стороны студентов, которые показали гораздо лучшие результаты на пробных экзаменах, чем предсказывали их алгоритмически сгенерированные результаты.

Чтобы избежать несправедливых сценариев, влияющих на траекторию жизни учащихся, не следует использовать прогностические модели для принятия важных решений без людей, обладающих опытом в предметной области, которые проверяют каждый результат и имеют право оспаривать или отвергать их. Эти модели должны быть максимально прозрачными и объяснимыми, а их данные и методы должны быть полностью задокументированы и доступны для анализа. Автоматизированные прогнозы могут информировать людей, принимающих решения, но не должны заменять их. Кроме того, прогнозы всегда следует сравнивать с фактическими результатами, а модели необходимо отслеживать, чтобы определить, когда их нужно переобучать с учетом меняющейся реальности.

В конечном итоге, в то время как 2020 год раскрыл твердую правду о наших существующих системах и моделях, 2021 год предоставит учреждениям возможность распознать недостатки, устранить предвзятость и изменить подходы. Следующая итерация моделей будет более сильной для этого, а лучшая информация и понимание принесут пользу всем.

Источник: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Отметка времени:

Больше от Эд Сёрдж