대학 예측 모델이 전염병에서 살아남을 수 있습니까?

소스 노드 : 820285

많은 사람들이 2020년을 잊고 싶어하지만, 데이터 과학자들은 팬데믹의 영향으로 인해 2020년 데이터가 변칙적으로 변하는지, 아니면 고등 교육 분야에서 보다 영구적인 변화가 나타날 것인지를 판단하면서 올해를 최우선으로 생각하게 될 것입니다. 새로운 예측 모델을 개발하고 작년에 수집된 데이터로 기존 모델을 업데이트함에 따라, 그 효과를 분석하고 다음에 무엇이 올지 예측하려고 할 때 해당 데이터의 가중치를 결정해야 합니다.

그 너머 작년에 지원하고 등록한 학생 수의 극적인 변화, 지원 자료의 친숙한 데이터조차 이용 가능하지 않게 되어 대학이 지원자와 재학생의 행동 방식을 예측하기가 더 어려워졌습니다. 팬데믹 기간 동안 학생들이 SAT나 ACT를 치르는 데 어려움을 겪었기 때문에, 많은 기관이 시험 선택 사항으로 전환되었습니다.. 시험 데이터가 부족하고 지원서 및 등록의 수, 유형 및 시기가 다양하기 때문에 고등 교육 운영의 친숙한 연간 주기를 예측하기가 어렵습니다.

입학사정관과 등록 관리자는 스스로에게 몇 가지 질문을 던지고 있습니다. 올해 상황이 코로나19 이전의 "정상적인" 패턴으로 돌아갈 것으로 예상해야 할까요, 아니면 기대치를 영구적으로 바꿔야 할까요? 입학 기준이나 장학금 기준을 변경해야 합니까? 전례 없는 한 해를 보낸 후, 과거 데이터를 바탕으로 훈련한 예측 모델을 폐기해야 할까요? 그리고 기존 프로세스와 도구를 유지한다면 어떻게 데이터 과학자와 협력하여 유용한 상태를 유지하도록 재조정할 수 있을까요?

저는 예측 모델이 여전히 대학에 많은 가치를 제공한다고 믿습니다. 우선, 과거 데이터를 기반으로 훈련된 모델은 현실이 기대와 어떻게 다른지 이해하는 데 특히 유용할 수 있습니다. 그러나 작년에 이러한 도구를 통해 "누가" 등록할 가능성이 가장 높은지 또는 성공하는 데 도움이 되는 추가 서비스가 필요한지에 대해 예측하는 "방법"과 "이유"를 완전히 이해하는 것이 얼마나 중요한지 밝혀졌습니다. 기관.

어떤 모델이 틀렸고 옳은가?

코로나19 이전에 구축한 모델을 평가할 때 모델이 과거 데이터에서 식별한 팬데믹 촉매 추세와 상관 관계를 발견했습니다. 본질적으로 건전한 예측을 내렸지만 속도와 규모는 예상하지 못했습니다.

한 가지 예는 충족되지 않은 재정적 필요와 학생 유지 사이의 관계입니다. 재정 지원이 적용되지 않는 학생은 더 낮은 비율로 재등록하는 경향이 있습니다. 이러한 패턴은 팬데믹 기간 동안 계속된 것으로 보이며, 모델에서는 재정적 문제로 인해 다음 학기에 등록하지 못할 위험이 가장 높은 학생을 정확하게 식별하는 경우가 많았습니다.

그러나 위기 상황에서 모델은 다른 학생들이 돌아올 가능성에 대해 지나치게 낙관했을 수도 있습니다. 더 많은 가족의 재정적 미래가 불확실해짐에 따라 대출, 장학금 및 보조금으로 해결되지 않은 재정적 필요가 학생의 재등록 결정에 평소보다 더 큰 영향을 미쳤을 수 있습니다. 이는 많은 기관에서 예상한 모델보다 2020년에 전체 유지율이 더 급격히 감소한 이유를 설명하는 데 도움이 될 수 있습니다.

보다 "블랙박스"(설명하기 어려운) 접근 방식을 사용하고 어떤 변수에 가장 큰 비중을 두는지에 대한 추가 컨텍스트 없이 유지 가능성 점수를 생성하는 모델은 기관이 현재 증폭된 유지 위험을 해결하는 데 도움이 되는 귀중한 통찰력을 거의 제공하지 않습니다. 이러한 유형의 모델에 의존하는 기관은 전염병이 예측 결과에 어떤 영향을 미쳤는지 이해하지 못합니다. 이로 인해 어떤 상황에서 계속 사용할지 결정하기가 더 어려워집니다.

물론 예측 모델이 잘 수행되고 설명 가능하다고 해서 해당 모델과 그것이 나타내는 시스템이 심층 조사에서 면제된다는 의미는 아닙니다. 모델의 출력을 좀 더 자세히 살펴보고 새로운 상황에서 어떤 모델이 잘 수행되고 있고 그렇지 않은지 결정해야 하는 것은 아마도 좋은 일일 것입니다.

부유한 가족이 전염병을 더 잘 "탈출"할 수 있다면 해당 가족의 학생들은 전염병 이전 비율에 더 가깝게 등록할 수 있습니다. 결과적으로 모델은 등록을 잘 예측합니다. 그러나 바이러스로 인해 건강이나 경제적 위험이 더 높은 가족은 현재 상태가 "서류상"이나 모델이 사용하는 데이터 세트에서 변경되지 않았더라도 대유행 기간 동안 자녀를 대학에 보내는 것에 대해 다른 결정을 내릴 수 있습니다. 어려운 시기에 모델의 예측이 덜 정확한 그룹을 식별하면 모델에 알려지지 않은 요인이 강조되어 학생들에게 실제 영향을 미칩니다.

도전적인 알고리즘 편향

사회적 불평등이 특히 눈에 띄고 해로울 때 모델이 간과하거나 잘못 특성화하는 사람들을 식별하는 것이 훨씬 더 중요합니다. 소외된 지역사회는 코로나19로 인해 건강과 재정적 영향을 가장 크게 받습니다. 있다 역사적 사회적 편견이 우리 데이터에 '구워져' 있습니다. 기존 프로세스를 가속화하고 확장하는 모델링 시스템과 기계는 종종 이러한 편견을 영속시킵니다. 예측 모델과 인간 데이터 과학자는 사회적 맥락과 기타 필수 요소가 알고리즘 결과에 영향을 미치도록 협력해야 합니다.

예를 들어, 작년에 영국 대학 입학 시험을 대체하는 알고리즘이 있었는데, 아마도 학생들이 시험을 쳤을 때 시험에서 어떤 성적을 거둘지 예측하는 것으로 추정됩니다. 이 알고리즘은 논란의 여지가 많은 결과를 낳았습니다.

교사는 학생들이 시험에서 어떤 성적을 냈을지 추정한 다음, 알고리즘은 각 학교 학생들의 과거 성적을 기반으로 인간의 예측을 조정했습니다. 처럼 Axios의보고, “가장 큰 피해를 입은 학생들은 성적이 좋지 않은 학교의 성적이 높아 성적이 하락할 확률이 높았고, 부유한 학교의 학생들은 점수가 올라갈 가능성이 높았습니다.”

기사는 다음과 같이 결론지었습니다. “잘못 설계된 알고리즘은 대학 진학을 넘어서는 영향을 미칠 수 있는 새로운 형태의 편견을 고착시킬 위험이 있습니다.” 영국 정부는 모의고사에서 알고리즘으로 생성된 결과가 예상했던 것보다 훨씬 더 나은 성적을 거둔 학생들을 포함하여 대규모 대중의 항의가 있은 후 알고리즘을 포기했습니다.

학생들의 삶의 궤적에 영향을 미치는 불공정한 시나리오를 방지하려면 해당 분야의 전문 지식을 갖춘 사람이 모든 결과를 검토하고 결과에 이의를 제기하거나 무시할 수 있는 권한 없이 예측 모델을 사용하여 영향력이 큰 결정을 내려서는 안 됩니다. 이러한 모델은 최대한 투명하고 설명 가능해야 하며 해당 데이터와 방법은 완전히 문서화되어 검토가 가능해야 합니다. 자동화된 예측은 인간 의사 결정자에게 정보를 제공할 수 있지만 이를 대체해서는 안 됩니다. 또한 예측은 항상 실제 결과와 비교되어야 하며, 변화하는 현실에 따라 모델을 재교육해야 하는 시기를 결정하기 위해 모델을 모니터링해야 합니다.

궁극적으로 2020년은 기존 시스템과 모델에 대한 엄연한 진실을 노출한 반면, 2021년은 기관이 결함을 인식하고 편견을 해결하며 접근 방식을 재설정할 수 있는 기회를 제공합니다. 다음 모델 반복은 이를 위해 더 강력해질 것이며 더 나은 정보와 통찰력은 모든 사람에게 도움이 될 것입니다.

출처: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

타임 스탬프 :

더보기 에드 서지