اگرچه بسیاری مشتاقند سال 2020 را فراموش کنند، اما دانشمندان داده با تعیین اینکه آیا تأثیر بیماری همه گیر باعث غیرعادی شدن داده های سال 2020 می شود یا نشانه ای از تغییرات دائمی تر در ویرایش های بالاتر، سال را در ذهن خود نگه می دارند. همانطور که مدلهای پیشبینی جدید را توسعه میدهیم و مدلهای موجود را با دادههای جمعآوریشده در سال گذشته بهروزرسانی میکنیم، باید تأثیرات آن را تجزیه و تحلیل کنیم و تصمیم بگیریم که هنگام تلاش برای پیشبینی اتفاقات بعدی، چقدر آن دادهها را وزن کنیم.
خارج از تغییر چشمگیر در تعداد دانشجویانی که در سال گذشته درخواست داده و ثبت نام کرده اند، حتی داده های آشنا از مواد برنامه کاربردی کمتر در دسترس است و پیش بینی نحوه رفتار متقاضیان و دانشجویان بازگشته را برای کالج ها سخت تر می کند. با توجه به مشکلاتی که دانشآموزان در طول همهگیری SAT یا ACT داشتند، بسیاری از موسسات به صورت اختیاری تست شده اند. دادههای کمیابتر امتحانات و تنوع زیاد در تعداد، نوع و زمانبندی برنامهها و ثبتنامها، چرخههای سالانه آشنای عملیات ویرایش بالاتر را کمتر قابل پیشبینی کرده است.
افسران پذیرش و مدیران ثبت نام چندین سوال از خود می پرسند. آیا آنها باید انتظار داشته باشند که امسال همه چیز به الگوهای "عادی" پیش از کووید (COVID) بازگردد یا انتظارات آنها را برای همیشه تغییر دهد؟ آیا آنها باید معیارهای پذیرش یا بورسیه را تغییر دهند؟ آیا آنها باید پس از یک سال بی سابقه، مدل های پیش بینی را که بر اساس داده های گذشته آموزش داده اند، کنار بگذارند؟ و اگر آنها فرآیندها و ابزارهای موجود را حفظ کنند، چگونه می توانند با دانشمندان داده کار کنند تا آنها را دوباره تنظیم کنند تا مفید بمانند؟
من معتقدم مدلهای پیشبینی هنوز هم ارزش زیادی برای دانشگاهها دارند. برای یک چیز، مدل های آموزش داده شده بر روی داده های گذشته می توانند به ویژه در درک تفاوت واقعیت با انتظارات مفید باشند. اما سال گذشته نشان داد که چقدر مهم است که ما «چگونه» و «چرا» پیشبینیهایی را که این ابزارها درباره «چه کسی» انجام میدهند به احتمال زیاد ثبتنام میکنند یا ممکن است به خدمات اضافی نیاز داشته باشند را کاملاً درک کنیم. موسسه، نهاد.
چه مدل هایی اشتباه و درست هستند
هنگام ارزیابی مدلهایی که قبل از COVID-19 ساختهام، متوجه شدم که همهگیری روندها و همبستگیهایی را که مدل در دادههای گذشته شناسایی کرده بود، کاتالیز میکند. اساساً پیشبینیهای درستی انجام میداد، اما نرخ و مقیاس را پیشبینی نمیکرد.
یک مثال رابطه بین نیاز مالی برآورده نشده و حفظ دانشجو است. دانش آموزانی که نیازی دارند که تحت پوشش کمک های مالی قرار نمی گیرد، تمایل دارند با نرخ های پایین تری دوباره ثبت نام کنند. به نظر میرسد این الگو در طول همهگیری ادامه داشته است و مدلها اغلب به درستی شناسایی میکنند که کدام دانشآموزان به دلیل مشکلات مالی بیشتر در معرض خطر ثبت نام نکردن در ترم بعدی هستند.
با این حال، در زمینه بحران، مدلها نیز ممکن است نسبت به احتمال بازگشت سایر دانشآموزان بیش از حد خوشبین بوده باشند. از آنجایی که آینده مالی بیشتر خانواده ها کمتر قطعی شد، نیازهای مالی که با وام، بورسیه تحصیلی و کمک هزینه برطرف نشد، ممکن است تأثیر بیشتری نسبت به معمول بر تصمیمات دانشجویان برای عدم ثبت نام مجدد داشته باشد. این می تواند توضیح دهد که چرا نرخ کل نگهداری در سال 2020 به شدت نسبت به مدل های پیش بینی شده در بسیاری از موسسات کاهش یافته است.
مدلی که امتیازات احتمال ماندگاری را با رویکرد «جعبه سیاه» بیشتر (کمتر قابل توضیح) ایجاد میکند، و بدون زمینه اضافی درباره اینکه کدام متغیرها بیشترین وزن را دارد، بینش ارزشمند کمتری را برای کمک به مؤسسات برای رسیدگی به خطرات حفظ که اکنون تقویت شدهاند، ارائه میکند. مؤسساتی که بر این نوع مدل تکیه میکنند، درک کمتری از نحوه تأثیر همهگیری بر خروجی پیشبینیهایشان دارند. این امر تعیین اینکه آیا و تحت چه شرایطی ادامه استفاده از آنها را دشوارتر می کند.
صرفاً به این دلیل که یک مدل پیشبینیکننده خوب عمل میکند و قابل توضیح است، البته به این معنا نیست که آن و سیستمی که نشان میدهد از بررسی عمیق معاف هستند. این احتمالاً چیز خوبی است که باید نگاه دقیقتری به خروجی مدلهایمان بیندازیم و مشخص کنیم که مدلها برای چه کسانی در شرایط جدید ما عملکرد خوبی دارند و ندارند.
اگر خانوادههای ثروتمند بتوانند بهتر از همهگیری خارج شوند، دانشآموزان آن خانوادهها ممکن است به نرخهای پیش از همهگیری نزدیکتر ثبتنام کنند. به نوبه خود، مدل ها ثبت نام خود را به خوبی پیش بینی می کنند. اما خانوادههایی که ویروس برای آنها خطر سلامتی یا اقتصادی بیشتری دارد، ممکن است تصمیمهای متفاوتی در مورد فرستادن فرزندان خود به دانشگاه در طول همهگیری بگیرند، حتی اگر وضعیت فعلی آنها «بر روی کاغذ» یا در مجموعه دادههایی که مدل استفاده میکند تغییر نکرده باشد. شناسایی گروههایی که پیشبینیهای مدلها برای آنها در زمانهای سخت دقت کمتری دارند، عوامل ناشناخته مدل را برجسته میکند، که تأثیر دنیای واقعی بر دانشآموزان دارد.
به چالش کشیدن تعصب الگوریتمی
شناسایی افرادی که مدلها در زمانی که نابرابریهای اجتماعی بهویژه مشهود و مضر هستند، نادیده گرفته میشوند یا آنها را نادرست توصیف میکنند، حیاتیتر است. جوامع به حاشیه رانده شده بیشترین تأثیرات بهداشتی و مالی COVID-19 را متحمل می شوند. وجود دارد سوگیریهای اجتماعی تاریخی در دادههای ما نفوذ کرده است و سیستمهای مدلسازی، و ماشینهایی که فرآیندهای موجود را تسریع و گسترش میدهند، اغلب این سوگیریها را تداوم میبخشند. مدلهای پیشبینیکننده و دانشمندان دادههای انسانی باید به طور هماهنگ کار کنند تا اطمینان حاصل کنند که زمینه اجتماعی و سایر عوامل ضروری، خروجیهای الگوریتمی را اطلاع میدهند.
به عنوان مثال، سال گذشته، الگوریتمی جایگزین آزمونهای ورودی کالج در بریتانیا شد و ظاهراً پیشبینی میکرد که دانشآموزان در صورت شرکت در یک امتحان چگونه خواهند بود. این الگوریتم نتایج بسیار بحث برانگیزی تولید کرد.
معلمان تخمین زدند که دانشآموزانشان در امتحانات چگونه عمل میکردند و سپس الگوریتمها آن پیشبینیهای انسانی را بر اساس عملکرد تاریخی دانشآموزان هر مدرسه تنظیم کردند. مانند Axios گزارش داد"بزرگترین قربانیان دانش آموزان با نمرات بالا از مدارس کمتر برخوردار بودند که احتمال کاهش نمره آنها بیشتر بود، در حالی که دانش آموزان مدارس ثروتمندتر احتمال بیشتری داشت که نمرات آنها افزایش یابد."
این مقاله به این نتیجه رسید: «الگوریتمهای ضعیف طراحی شده خطر ایجاد شکل جدیدی از سوگیری را دارند که میتواند تأثیراتی فراتر از جایگاه دانشگاهی داشته باشد». دولت بریتانیا پس از اعتراض گسترده عمومی، از جمله دانشجویانی که در آزمون های آزمایشی بسیار بهتر از پیش بینی نتایج الگوریتمی خود عمل کردند، این الگوریتم را کنار گذاشت.
برای جلوگیری از سناریوهای ناعادلانه که بر مسیر زندگی دانشآموزان تأثیر میگذارد، نباید از مدلهای پیشبینیکننده برای تصمیمگیریهای تاثیرگذار استفاده کرد، بدون اینکه افراد دارای تخصص در حوزه همه نتایج را بررسی کنند و قدرت به چالش کشیدن یا نادیده گرفتن آنها را داشته باشند. این مدلها باید تا حد امکان شفاف و قابل توضیح باشند و دادهها و روشهای آنها باید کاملاً مستند و برای بررسی در دسترس باشند. پیش بینی های خودکار می توانند تصمیم گیرندگان انسانی را آگاه کنند، اما نباید جایگزین آنها شوند. علاوه بر این، پیشبینیها باید همیشه با نتایج واقعی مقایسه شوند و مدلها باید برای تعیین زمان نیاز به آموزش مجدد، با توجه به واقعیت در حال تغییر، پایش شوند.
در نهایت، در حالی که سال 2020 حقایق سختی را در مورد سیستمها و مدلهای موجود ما آشکار کرد، سال 2021 فرصتی برای مؤسسات فراهم میکند تا نقصها را بشناسند، با تعصبات مقابله کنند و رویکردها را بازنشانی کنند. مدل های بعدی برای آن قوی تر خواهد بود و اطلاعات و بینش بهتر برای همه مفید خواهد بود.
منبع: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic
- اضافی
- الگوریتم
- الگوریتم
- کاربرد
- برنامه های کاربردی
- مقاله
- خودکار
- Axios
- بزرگترین
- انگلیسی
- به چالش
- تغییر دادن
- فرزندان
- نزدیک
- کالج
- جوامع
- ادامه دادن
- Covid-19
- بحران
- جاری
- داده ها
- توسعه
- اقتصادی
- خانواده
- مالی
- کمک های مالی
- معایب
- فرم
- آینده
- خوب
- دولت
- کمک های مالی
- سلامتی
- زیاد
- چگونه
- HTTPS
- شناسایی
- تأثیر
- از جمله
- اطلاعات
- بینش
- موسسه
- موسسات
- مسائل
- IT
- نگهداری
- وام
- ماشین آلات
- ساخت
- مصالح
- مدل
- مدل سازی
- ارائه
- عملیات
- فرصت
- دیگر
- بیماری همه گیر
- الگو
- مردم
- کارایی
- قدرت
- پیش بینی
- ساخته
- عمومی
- نرخ
- واقعیت
- نتایج
- این فایل نقد می نویسید:
- خطر
- مقیاس
- مدرسه
- دانشکده ها
- دانشمندان
- خدمات
- آگاهی
- وضعیت
- دانشجو
- سیستم
- سیستم های
- زمان
- بالا
- روند
- انگلستان
- دانشگاه ها
- دانشگاه
- بروزرسانی
- ارزش
- ویروس
- وزن کن
- وزن می کند
- WHO
- مهاجرت کاری
- سال