آیا مدل های پیش بینی دانشگاه می توانند از همه گیری جان سالم به در ببرند؟

گره منبع: 820285

اگرچه بسیاری مشتاقند سال 2020 را فراموش کنند، اما دانشمندان داده با تعیین اینکه آیا تأثیر بیماری همه گیر باعث غیرعادی شدن داده های سال 2020 می شود یا نشانه ای از تغییرات دائمی تر در ویرایش های بالاتر، سال را در ذهن خود نگه می دارند. همانطور که مدل‌های پیش‌بینی جدید را توسعه می‌دهیم و مدل‌های موجود را با داده‌های جمع‌آوری‌شده در سال گذشته به‌روزرسانی می‌کنیم، باید تأثیرات آن را تجزیه و تحلیل کنیم و تصمیم بگیریم که هنگام تلاش برای پیش‌بینی اتفاقات بعدی، چقدر آن داده‌ها را وزن کنیم.

خارج از تغییر چشمگیر در تعداد دانشجویانی که در سال گذشته درخواست داده و ثبت نام کرده اند، حتی داده های آشنا از مواد برنامه کاربردی کمتر در دسترس است و پیش بینی نحوه رفتار متقاضیان و دانشجویان بازگشته را برای کالج ها سخت تر می کند. با توجه به مشکلاتی که دانش‌آموزان در طول همه‌گیری SAT یا ACT داشتند، بسیاری از موسسات به صورت اختیاری تست شده اند. داده‌های کمیاب‌تر امتحانات و تنوع زیاد در تعداد، نوع و زمان‌بندی برنامه‌ها و ثبت‌نام‌ها، چرخه‌های سالانه آشنای عملیات ویرایش بالاتر را کمتر قابل پیش‌بینی کرده است.

افسران پذیرش و مدیران ثبت نام چندین سوال از خود می پرسند. آیا آنها باید انتظار داشته باشند که امسال همه چیز به الگوهای "عادی" پیش از کووید (COVID) بازگردد یا انتظارات آنها را برای همیشه تغییر دهد؟ آیا آنها باید معیارهای پذیرش یا بورسیه را تغییر دهند؟ آیا آنها باید پس از یک سال بی سابقه، مدل های پیش بینی را که بر اساس داده های گذشته آموزش داده اند، کنار بگذارند؟ و اگر آنها فرآیندها و ابزارهای موجود را حفظ کنند، چگونه می توانند با دانشمندان داده کار کنند تا آنها را دوباره تنظیم کنند تا مفید بمانند؟

من معتقدم مدل‌های پیش‌بینی هنوز هم ارزش زیادی برای دانشگاه‌ها دارند. برای یک چیز، مدل های آموزش داده شده بر روی داده های گذشته می توانند به ویژه در درک تفاوت واقعیت با انتظارات مفید باشند. اما سال گذشته نشان داد که چقدر مهم است که ما «چگونه» و «چرا» پیش‌بینی‌هایی را که این ابزارها درباره «چه کسی» انجام می‌دهند به احتمال زیاد ثبت‌نام می‌کنند یا ممکن است به خدمات اضافی نیاز داشته باشند را کاملاً درک کنیم. موسسه، نهاد.

چه مدل هایی اشتباه و درست هستند

هنگام ارزیابی مدل‌هایی که قبل از COVID-19 ساخته‌ام، متوجه شدم که همه‌گیری روندها و همبستگی‌هایی را که مدل در داده‌های گذشته شناسایی کرده بود، کاتالیز می‌کند. اساساً پیش‌بینی‌های درستی انجام می‌داد، اما نرخ و مقیاس را پیش‌بینی نمی‌کرد.

یک مثال رابطه بین نیاز مالی برآورده نشده و حفظ دانشجو است. دانش آموزانی که نیازی دارند که تحت پوشش کمک های مالی قرار نمی گیرد، تمایل دارند با نرخ های پایین تری دوباره ثبت نام کنند. به نظر می‌رسد این الگو در طول همه‌گیری ادامه داشته است و مدل‌ها اغلب به درستی شناسایی می‌کنند که کدام دانش‌آموزان به دلیل مشکلات مالی بیشتر در معرض خطر ثبت نام نکردن در ترم بعدی هستند.

با این حال، در زمینه بحران، مدل‌ها نیز ممکن است نسبت به احتمال بازگشت سایر دانش‌آموزان بیش از حد خوش‌بین بوده باشند. از آنجایی که آینده مالی بیشتر خانواده ها کمتر قطعی شد، نیازهای مالی که با وام، بورسیه تحصیلی و کمک هزینه برطرف نشد، ممکن است تأثیر بیشتری نسبت به معمول بر تصمیمات دانشجویان برای عدم ثبت نام مجدد داشته باشد. این می تواند توضیح دهد که چرا نرخ کل نگهداری در سال 2020 به شدت نسبت به مدل های پیش بینی شده در بسیاری از موسسات کاهش یافته است.

مدلی که امتیازات احتمال ماندگاری را با رویکرد «جعبه سیاه» بیشتر (کمتر قابل توضیح) ایجاد می‌کند، و بدون زمینه اضافی درباره اینکه کدام متغیرها بیشترین وزن را دارد، بینش ارزشمند کمتری را برای کمک به مؤسسات برای رسیدگی به خطرات حفظ که اکنون تقویت شده‌اند، ارائه می‌کند. مؤسساتی که بر این نوع مدل تکیه می‌کنند، درک کمتری از نحوه تأثیر همه‌گیری بر خروجی پیش‌بینی‌هایشان دارند. این امر تعیین اینکه آیا و تحت چه شرایطی ادامه استفاده از آنها را دشوارتر می کند.

صرفاً به این دلیل که یک مدل پیش‌بینی‌کننده خوب عمل می‌کند و قابل توضیح است، البته به این معنا نیست که آن و سیستمی که نشان می‌دهد از بررسی عمیق معاف هستند. این احتمالاً چیز خوبی است که باید نگاه دقیق‌تری به خروجی مدل‌هایمان بیندازیم و مشخص کنیم که مدل‌ها برای چه کسانی در شرایط جدید ما عملکرد خوبی دارند و ندارند.

اگر خانواده‌های ثروتمند بتوانند بهتر از همه‌گیری خارج شوند، دانش‌آموزان آن خانواده‌ها ممکن است به نرخ‌های پیش از همه‌گیری نزدیک‌تر ثبت‌نام کنند. به نوبه خود، مدل ها ثبت نام خود را به خوبی پیش بینی می کنند. اما خانواده‌هایی که ویروس برای آنها خطر سلامتی یا اقتصادی بیشتری دارد، ممکن است تصمیم‌های متفاوتی در مورد فرستادن فرزندان خود به دانشگاه در طول همه‌گیری بگیرند، حتی اگر وضعیت فعلی آنها «بر روی کاغذ» یا در مجموعه داده‌هایی که مدل استفاده می‌کند تغییر نکرده باشد. شناسایی گروه‌هایی که پیش‌بینی‌های مدل‌ها برای آن‌ها در زمان‌های سخت دقت کمتری دارند، عوامل ناشناخته مدل را برجسته می‌کند، که تأثیر دنیای واقعی بر دانش‌آموزان دارد.

به چالش کشیدن تعصب الگوریتمی

شناسایی افرادی که مدل‌ها در زمانی که نابرابری‌های اجتماعی به‌ویژه مشهود و مضر هستند، نادیده گرفته می‌شوند یا آنها را نادرست توصیف می‌کنند، حیاتی‌تر است. جوامع به حاشیه رانده شده بیشترین تأثیرات بهداشتی و مالی COVID-19 را متحمل می شوند. وجود دارد سوگیری‌های اجتماعی تاریخی در داده‌های ما نفوذ کرده است و سیستم‌های مدل‌سازی، و ماشین‌هایی که فرآیندهای موجود را تسریع و گسترش می‌دهند، اغلب این سوگیری‌ها را تداوم می‌بخشند. مدل‌های پیش‌بینی‌کننده و دانشمندان داده‌های انسانی باید به طور هماهنگ کار کنند تا اطمینان حاصل کنند که زمینه اجتماعی و سایر عوامل ضروری، خروجی‌های الگوریتمی را اطلاع می‌دهند.

به عنوان مثال، سال گذشته، الگوریتمی جایگزین آزمون‌های ورودی کالج در بریتانیا شد و ظاهراً پیش‌بینی می‌کرد که دانش‌آموزان در صورت شرکت در یک امتحان چگونه خواهند بود. این الگوریتم نتایج بسیار بحث برانگیزی تولید کرد.

معلمان تخمین زدند که دانش‌آموزانشان در امتحانات چگونه عمل می‌کردند و سپس الگوریتم‌ها آن پیش‌بینی‌های انسانی را بر اساس عملکرد تاریخی دانش‌آموزان هر مدرسه تنظیم کردند. مانند Axios گزارش داد"بزرگترین قربانیان دانش آموزان با نمرات بالا از مدارس کمتر برخوردار بودند که احتمال کاهش نمره آنها بیشتر بود، در حالی که دانش آموزان مدارس ثروتمندتر احتمال بیشتری داشت که نمرات آنها افزایش یابد."

این مقاله به این نتیجه رسید: «الگوریتم‌های ضعیف طراحی شده خطر ایجاد شکل جدیدی از سوگیری را دارند که می‌تواند تأثیراتی فراتر از جایگاه دانشگاهی داشته باشد». دولت بریتانیا پس از اعتراض گسترده عمومی، از جمله دانشجویانی که در آزمون های آزمایشی بسیار بهتر از پیش بینی نتایج الگوریتمی خود عمل کردند، این الگوریتم را کنار گذاشت.

برای جلوگیری از سناریوهای ناعادلانه که بر مسیر زندگی دانش‌آموزان تأثیر می‌گذارد، نباید از مدل‌های پیش‌بینی‌کننده برای تصمیم‌گیری‌های تاثیرگذار استفاده کرد، بدون اینکه افراد دارای تخصص در حوزه همه نتایج را بررسی کنند و قدرت به چالش کشیدن یا نادیده گرفتن آن‌ها را داشته باشند. این مدل‌ها باید تا حد امکان شفاف و قابل توضیح باشند و داده‌ها و روش‌های آنها باید کاملاً مستند و برای بررسی در دسترس باشند. پیش بینی های خودکار می توانند تصمیم گیرندگان انسانی را آگاه کنند، اما نباید جایگزین آنها شوند. علاوه بر این، پیش‌بینی‌ها باید همیشه با نتایج واقعی مقایسه شوند و مدل‌ها باید برای تعیین زمان نیاز به آموزش مجدد، با توجه به واقعیت در حال تغییر، پایش شوند.

در نهایت، در حالی که سال 2020 حقایق سختی را در مورد سیستم‌ها و مدل‌های موجود ما آشکار کرد، سال 2021 فرصتی برای مؤسسات فراهم می‌کند تا نقص‌ها را بشناسند، با تعصبات مقابله کنند و رویکردها را بازنشانی کنند. مدل های بعدی برای آن قوی تر خواهد بود و اطلاعات و بینش بهتر برای همه مفید خواهد بود.

منبع: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

تمبر زمان:

بیشتر از اد سرج