Các mô hình dự đoán của trường đại học có thể sống sót sau đại dịch không?

Nút nguồn: 820285

Mặc dù nhiều người muốn quên năm 2020, nhưng các nhà khoa học dữ liệu sẽ luôn chú ý đến năm này khi chúng tôi xác định xem liệu tác động của đại dịch có khiến dữ liệu năm 2020 trở nên bất thường hay là dấu hiệu cho thấy sự thay đổi lâu dài hơn ở cấp độ cao hơn. Khi chúng tôi phát triển các mô hình dự đoán mới và cập nhật các mô hình hiện có với dữ liệu được thu thập trong năm qua, chúng tôi sẽ cần phân tích tác động của nó và quyết định mức độ cân nhắc dữ liệu đó khi cố gắng dự đoán điều gì sẽ xảy ra tiếp theo.

Ngoài sự thay đổi đáng kể về số lượng sinh viên đăng ký và ghi danh vào năm ngoái, ngay cả dữ liệu quen thuộc từ các tài liệu đăng ký cũng trở nên ít sẵn có hơn, khiến các trường đại học khó dự đoán hành vi của người nộp đơn và sinh viên quay trở lại. Do những khó khăn mà học sinh gặp phải khi thi SAT hoặc ACT trong thời gian xảy ra đại dịch, nhiều tổ chức đã áp dụng hình thức kiểm tra tùy chọn. Dữ liệu kỳ thi khan hiếm hơn và sự thay đổi lớn về số lượng, loại hình và thời gian đăng ký cũng như tuyển sinh đã khiến chu kỳ hàng năm quen thuộc của các hoạt động giáo dục đại học trở nên khó dự đoán hơn.

Cán bộ tuyển sinh và quản lý tuyển sinh đang tự hỏi mình một số câu hỏi. Họ có nên kỳ vọng mọi thứ sẽ trở lại trạng thái “bình thường” trước thời kỳ tiền Covid-19 trong năm nay hay thay đổi vĩnh viễn kỳ vọng của họ? Họ nên thay đổi tiêu chí tuyển sinh hay học bổng? Họ có nên loại bỏ các mô hình dự đoán mà họ đã đào tạo dựa trên dữ liệu trong quá khứ sau một năm chưa từng có? Và nếu họ giữ lại các quy trình và công cụ hiện có, làm cách nào họ có thể làm việc với các nhà khoa học dữ liệu để hiệu chỉnh lại để chúng vẫn hữu ích?

Tôi tin rằng các mô hình dự đoán vẫn mang lại nhiều giá trị cho các trường đại học. Thứ nhất, các mô hình được đào tạo dựa trên dữ liệu trong quá khứ có thể đặc biệt hữu ích trong việc hiểu thực tế khác với mong đợi như thế nào. Nhưng năm ngoái đã cho thấy tầm quan trọng của việc chúng ta hiểu đầy đủ “làm thế nào” và “tại sao” những dự đoán mà các công cụ này đưa ra về “ai” có nhiều khả năng đăng ký nhất hoặc có thể cần các dịch vụ bổ sung để giúp họ thành công ở một tổ chức.

Những mô hình nào sai và đúng

Khi đánh giá các mô hình mà tôi đã xây dựng trước COVID-19, tôi nhận thấy đại dịch đã xúc tác cho các xu hướng và mối tương quan mà mô hình đã xác định được trong dữ liệu trước đây. Về cơ bản, nó đưa ra những dự đoán hợp lý nhưng không lường trước được tỷ lệ và quy mô.

Một ví dụ là mối quan hệ giữa nhu cầu tài chính chưa được đáp ứng và việc giữ chân sinh viên. Những sinh viên có nhu cầu không được hỗ trợ tài chính có xu hướng đăng ký lại với mức giá thấp hơn. Mô hình đó dường như vẫn tiếp tục trong thời kỳ đại dịch và các mô hình thường xác định chính xác những sinh viên nào có nguy cơ không đăng ký học kỳ tiếp theo cao nhất do vấn đề tài chính.

Tuy nhiên, trong bối cảnh khủng hoảng, các mô hình cũng có thể đã quá lạc quan về khả năng các sinh viên khác sẽ quay trở lại. Khi tương lai tài chính của nhiều gia đình trở nên kém chắc chắn hơn, nhu cầu tài chính không được giải quyết bằng các khoản vay, học bổng và trợ cấp có thể có tác động lớn hơn bình thường đến quyết định không đăng ký lại của sinh viên. Điều đó có thể giúp giải thích tại sao tỷ lệ duy trì tổng thể giảm mạnh hơn vào năm 2020 so với mô hình được dự đoán ở nhiều tổ chức.

Một mô hình tạo ra điểm số về khả năng duy trì với cách tiếp cận “hộp đen” hơn (ít giải thích hơn) và không có bối cảnh bổ sung về biến số nào được coi trọng nhất, cung cấp ít thông tin chi tiết có giá trị hơn để giúp các tổ chức giải quyết các rủi ro duy trì hiện đang được khuếch đại. Các tổ chức dựa vào loại mô hình này ít hiểu biết hơn về việc đại dịch ảnh hưởng như thế nào đến kết quả dự đoán của họ. Điều đó gây khó khăn hơn cho việc xác định xem có nên tiếp tục sử dụng chúng hay không và trong hoàn cảnh nào.

Tất nhiên, chỉ vì một mô hình dự đoán hoạt động tốt và có thể giải thích được không có nghĩa là nó và hệ thống mà nó đại diện được miễn kiểm tra sâu. Có lẽ một điều tốt là chúng ta phải xem xét kỹ hơn kết quả của các mô hình của mình và xác định xem mô hình nào hoạt động tốt và không hoạt động tốt trong hoàn cảnh mới của chúng ta.

Nếu những gia đình giàu có có thể “vượt qua” đại dịch tốt hơn, học sinh từ những gia đình đó có thể ghi danh với tỷ lệ gần hơn trước đại dịch. Đổi lại, các mô hình dự đoán tốt việc tuyển sinh của họ. Nhưng những gia đình mà vi-rút gây ra rủi ro kinh tế hoặc sức khỏe cao hơn có thể đưa ra quyết định khác về việc cho con họ đi học đại học trong thời kỳ đại dịch, ngay cả khi tình trạng hiện tại của họ không thay đổi “trên giấy tờ” hoặc trong bộ dữ liệu mà mô hình sử dụng. Việc xác định các nhóm mà dự đoán của mô hình kém chính xác hơn trong thời điểm khó khăn sẽ nêu bật các yếu tố mà mô hình chưa biết đến và có tác động trong thế giới thực đối với học sinh.

Xu hướng thuật toán đầy thách thức

Điều quan trọng hơn nữa là xác định những người mà các mô hình bỏ qua hoặc mô tả sai vào thời điểm mà sự bất bình đẳng xã hội đặc biệt rõ ràng và có hại. Các cộng đồng bị thiệt thòi phải chịu gánh nặng từ các tác động về sức khỏe và tài chính của COVID-19. Có những thành kiến ​​xã hội lịch sử “được đưa vào” dữ liệu của chúng tôi và các hệ thống mô hình hóa cũng như các máy móc tăng tốc và mở rộng các quy trình hiện có thường duy trì những thành kiến ​​đó. Các mô hình dự đoán và các nhà khoa học dữ liệu con người nên phối hợp làm việc để đảm bảo rằng bối cảnh xã hội và các yếu tố thiết yếu khác cung cấp thông tin cho kết quả đầu ra của thuật toán.

Ví dụ, năm ngoái, một thuật toán đã thay thế các kỳ thi tuyển sinh đại học ở Vương quốc Anh, được cho là dự đoán cách học sinh sẽ làm bài kiểm tra nếu họ thực hiện nó. Thuật toán tạo ra kết quả gây nhiều tranh cãi.

Giáo viên ước tính học sinh của họ sẽ thể hiện như thế nào trong các kỳ thi, sau đó các thuật toán sẽ điều chỉnh những dự đoán đó của con người dựa trên thành tích lịch sử của học sinh ở mỗi trường. BẰNG Axios báo cáo“Nạn nhân lớn nhất là học sinh có điểm cao ở các trường kém thuận lợi hơn, những người có nhiều khả năng bị hạ điểm hơn, trong khi học sinh ở các trường giàu hơn có nhiều khả năng bị tăng điểm hơn”.

Bài báo kết luận: “Các thuật toán được thiết kế kém có nguy cơ tạo ra một dạng thiên vị mới có thể gây ra những tác động vượt xa việc xếp lớp vào trường đại học”. Chính phủ Anh kể từ đó đã từ bỏ thuật toán này sau sự phản đối kịch liệt của công chúng, bao gồm cả những sinh viên đạt kết quả tốt hơn nhiều trong các kỳ thi thử so với kết quả do thuật toán tạo ra của họ dự đoán.

Để tránh những tình huống không công bằng ảnh hưởng đến quỹ đạo cuộc sống của học sinh, không nên sử dụng các mô hình dự đoán để đưa ra quyết định có tác động lớn nếu không có người có chuyên môn về lĩnh vực xem xét mọi kết quả và có quyền thách thức hoặc ghi đè chúng. Các mô hình này phải minh bạch và dễ giải thích nhất có thể, đồng thời dữ liệu và phương pháp của chúng phải được ghi lại đầy đủ và có sẵn để xem xét. Dự đoán tự động có thể cung cấp thông tin cho người ra quyết định nhưng không thể thay thế họ. Ngoài ra, các dự đoán phải luôn được so sánh với kết quả thực tế và các mô hình phải được theo dõi để xác định khi nào chúng cần được đào tạo lại trong điều kiện thực tế thay đổi.

Cuối cùng, trong khi năm 2020 phơi bày những sự thật phũ phàng về các hệ thống và mô hình hiện có của chúng ta, thì năm 2021 mang đến cơ hội cho các tổ chức nhận ra những sai sót, giải quyết những thành kiến ​​và thiết lập lại các phương pháp tiếp cận. Lần lặp lại tiếp theo của các mô hình sẽ mạnh mẽ hơn và thông tin cũng như hiểu biết sâu sắc hơn sẽ mang lại lợi ích cho mọi người.

Nguồn: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemia

Dấu thời gian:

Thêm từ Ed tăng