Μπορούν τα κολεγιακά προγνωστικά μοντέλα να επιβιώσουν στην πανδημία;

Κόμβος πηγής: 820285

Αν και πολλοί είναι πρόθυμοι να ξεχάσουν το 2020, οι επιστήμονες δεδομένων θα κρατούν το έτος στην κορυφή του μυαλού καθώς προσδιορίζουμε εάν ο αντίκτυπος της πανδημίας καθιστά τα δεδομένα του 2020 ανώμαλα ή αποτελεί ένδειξη πιο μόνιμης αλλαγής στην ανώτερη έκδοση. Καθώς αναπτύσσουμε νέα μοντέλα πρόβλεψης και ενημερώνουμε τα υπάρχοντα με δεδομένα που συλλέχθηκαν τον τελευταίο χρόνο, θα χρειαστεί να αναλύσουμε τα αποτελέσματά τους και να αποφασίσουμε πόσο σοβαρά θα ζυγίσουμε αυτά τα δεδομένα όταν προσπαθούμε να προβλέψουμε τι θα ακολουθήσει.

Πέρα δραματική αλλαγή στον αριθμό των φοιτητών που έκαναν αίτηση και εγγράφηκαν πέρυσι, ακόμη και γνωστά δεδομένα από το υλικό των αιτήσεων έχουν γίνει λιγότερο διαθέσιμα, καθιστώντας πιο δύσκολο για τα κολέγια να προβλέψουν πώς είναι πιθανό να συμπεριφέρονται οι υποψήφιοι και οι φοιτητές που επιστρέφουν. Λόγω της δυσκολίας που είχαν οι μαθητές να κάνουν το SAT ή το ACT κατά τη διάρκεια της πανδημίας, πολλά ιδρύματα έχουν υποβληθεί σε προαιρετική δοκιμή. Τα σπανιότερα δεδομένα εξετάσεων και η υψηλή διακύμανση στον αριθμό, τον τύπο και το χρονοδιάγραμμα των αιτήσεων και των εγγραφών έχουν κάνει τους γνωστούς ετήσιους κύκλους των λειτουργιών ανώτερης εκπαίδευσης λιγότερο προβλέψιμους.

Οι υπεύθυνοι εισαγωγής και οι υπεύθυνοι εγγραφής θέτουν στον εαυτό τους πολλές ερωτήσεις. Πρέπει να περιμένουν ότι τα πράγματα θα επιστρέψουν στα «κανονικά» πρότυπα προ-COVID φέτος ή θα αλλάξουν οριστικά τις προσδοκίες τους; Πρέπει να αλλάξουν κριτήρια εισαγωγής ή υποτροφίας; Πρέπει να πετάξουν έξω τα μοντέλα πρόβλεψης που εκπαίδευσαν σε δεδομένα του παρελθόντος μετά από μια άνευ προηγουμένου χρονιά; Και αν διατηρούν τις υπάρχουσες διαδικασίες και εργαλεία, πώς μπορούν να συνεργαστούν με επιστήμονες δεδομένων για να τα επαναβαθμονομήσουν ώστε να παραμείνουν χρήσιμα;

Πιστεύω ότι τα προγνωστικά μοντέλα εξακολουθούν να προσφέρουν μεγάλη αξία στα πανεπιστήμια. Πρώτον, τα μοντέλα που έχουν εκπαιδευτεί σε δεδομένα του παρελθόντος μπορούν να είναι ιδιαίτερα χρήσιμα για την κατανόηση του πώς η πραγματικότητα διέφερε από τις προσδοκίες. Αλλά το τελευταίο έτος αποκάλυψε πόσο σημαντικό είναι να κατανοούμε πλήρως το «πώς» και το «γιατί» των προβλέψεων που κάνουν αυτά τα εργαλεία σχετικά με το «ποιος» είναι πιο πιθανό να εγγραφεί ή μπορεί να χρειαστεί πρόσθετες υπηρεσίες για να τους βοηθήσει να πετύχουν ίδρυμα.

Ποια μοντέλα έχουν λάθος και σωστά

Κατά την αξιολόγηση των μοντέλων που κατασκεύασα πριν από την COVID-19, διαπίστωσα ότι η πανδημία καταλύει τις τάσεις και τους συσχετισμούς που είχε εντοπίσει το μοντέλο σε προηγούμενα δεδομένα. Ουσιαστικά, έκανε ορθές προβλέψεις, αλλά δεν προέβλεψε ρυθμό και κλίμακα.

Ένα παράδειγμα είναι η σχέση μεταξύ των ανεκπλήρωτων οικονομικών αναγκών και της διατήρησης των φοιτητών. Οι φοιτητές που έχουν ανάγκη που δεν καλύπτεται από οικονομική βοήθεια τείνουν να εγγράφονται ξανά με χαμηλότερα ποσοστά. Αυτό το μοτίβο φαίνεται να συνεχίστηκε κατά τη διάρκεια της πανδημίας και τα μοντέλα συχνά εντόπιζαν σωστά ποιοι μαθητές κινδύνευαν περισσότερο να μην εγγραφούν στο επόμενο τρίμηνο λόγω οικονομικών ζητημάτων.

Ωστόσο, στο πλαίσιο της κρίσης, τα μοντέλα μπορεί επίσης να ήταν υπερβολικά αισιόδοξα για την πιθανότητα επιστροφής άλλων μαθητών. Καθώς το οικονομικό μέλλον περισσότερων οικογενειών έγινε λιγότερο σίγουρο, η οικονομική ανάγκη που δεν αντιμετωπίστηκε με δάνεια, υποτροφίες και επιχορηγήσεις μπορεί να είχε μεγαλύτερο αντίκτυπο από το συνηθισμένο στις αποφάσεις των φοιτητών να μην εγγραφούν ξανά. Αυτό θα μπορούσε να εξηγήσει γιατί τα συνολικά ποσοστά διατήρησης μειώθηκαν πιο απότομα το 2020 από τα μοντέλα που αναμένονταν σε πολλά ιδρύματα.

Ένα μοντέλο που δημιουργεί βαθμολογίες πιθανότητας διατήρησης με μια προσέγγιση πιο «μαύρο κουτί» (λιγότερο εξηγήσιμο) και χωρίς πρόσθετο πλαίσιο σχετικά με τις μεταβλητές που βαρύνει περισσότερο, παρέχει λιγότερες πολύτιμες πληροφορίες για να βοηθήσει τα ιδρύματα να αντιμετωπίσουν τους πλέον ενισχυμένους κινδύνους διατήρησης. Τα ιδρύματα που βασίζονται σε αυτό το είδος μοντέλου έχουν λιγότερη κατανόηση του τρόπου με τον οποίο η πανδημία επηρέασε την παραγωγή των προβλέψεών τους. Αυτό καθιστά πιο δύσκολο τον προσδιορισμό του αν και υπό ποιες συνθήκες θα συνεχίσει να τα χρησιμοποιεί.

Ακριβώς επειδή ένα μοντέλο πρόβλεψης αποδίδει καλά και είναι εξηγήσιμο δεν σημαίνει, φυσικά, ότι αυτό και το σύστημα που αντιπροσωπεύει εξαιρούνται από τη βαθιά εξέταση. Είναι μάλλον καλό που πρέπει να ρίξουμε μια πιο προσεκτική ματιά στην απόδοση των μοντέλων μας και να προσδιορίσουμε για ποιους τα μοντέλα έχουν και για ποιους δεν έχουν καλή απόδοση υπό τις νέες συνθήκες μας.

Εάν οι πλούσιες οικογένειες μπορέσουν να «ξεπεράσουν» καλύτερα την πανδημία, οι μαθητές από αυτές τις οικογένειες μπορεί να εγγραφούν πιο κοντά στα ποσοστά πριν από την πανδημία. Με τη σειρά τους, τα μοντέλα προβλέπουν καλά την εγγραφή τους. Ωστόσο, οι οικογένειες για τις οποίες ο ιός παρουσιάζει υψηλότερο κίνδυνο για την υγεία ή τον οικονομικό κίνδυνο μπορεί να λάβουν διαφορετικές αποφάσεις σχετικά με την αποστολή των παιδιών τους στο κολέγιο κατά τη διάρκεια της πανδημίας, ακόμα κι αν η τρέχουσα κατάστασή τους δεν έχει αλλάξει «στα χαρτιά» ή στα σύνολα δεδομένων που χρησιμοποιεί το μοντέλο. Ο εντοπισμός ομάδων για τις οποίες οι προβλέψεις των μοντέλων είναι λιγότερο ακριβείς σε δύσκολες στιγμές υπογραμμίζει παράγοντες άγνωστους στο μοντέλο, οι οποίοι έχουν πραγματικό αντίκτυπο στους μαθητές.

Προκλητική αλγοριθμική προκατάληψη

Είναι ακόμη πιο ζωτικής σημασίας να εντοπίσουμε εκείνους τους ανθρώπους που τα μοντέλα παραβλέπουν ή κακώς χαρακτηρίζουν σε μια εποχή που οι κοινωνικές ανισότητες είναι ιδιαίτερα ορατές και επιβλαβείς. Οι περιθωριοποιημένες κοινότητες φέρουν το κύριο βάρος των επιπτώσεων στην υγεία και τις οικονομικές επιπτώσεις του COVID-19. Υπάρχουν ιστορικές κοινωνικές προκαταλήψεις «ψήθηκαν» στα δεδομένα μας και τα συστήματα μοντελοποίησης και οι μηχανές που επιταχύνουν και επεκτείνουν τις υπάρχουσες διαδικασίες συχνά διαιωνίζουν αυτές τις προκαταλήψεις. Τα μοντέλα πρόβλεψης και οι επιστήμονες των ανθρώπινων δεδομένων θα πρέπει να εργαστούν από κοινού για να διασφαλίσουν ότι το κοινωνικό πλαίσιο και άλλοι ουσιαστικοί παράγοντες ενημερώνουν τα αλγοριθμικά αποτελέσματα.

Για παράδειγμα, πέρυσι, ένας αλγόριθμος αντικατέστησε τις εισαγωγικές εξετάσεις κολεγίων στο Ηνωμένο Βασίλειο, προβλέποντας υποτιθέμενα πώς θα τα πήγαιναν οι μαθητές σε μια εξέταση αν είχαν δώσει. Ο αλγόριθμος παρήγαγε εξαιρετικά αμφιλεγόμενα αποτελέσματα.

Οι δάσκαλοι υπολόγισαν την απόδοση των μαθητών τους στις εξετάσεις και στη συνέχεια οι αλγόριθμοι προσάρμοσαν αυτές τις ανθρώπινες προβλέψεις με βάση την ιστορική απόδοση των μαθητών από κάθε σχολείο. Οπως και Ο Αξιός ανέφερε, «Τα μεγαλύτερα θύματα ήταν μαθητές με υψηλούς βαθμούς από λιγότερο προνομιούχα σχολεία, οι οποίοι ήταν πιο πιθανό να υποβαθμιστούν οι βαθμολογίες τους, ενώ οι μαθητές από τα πλουσιότερα σχολεία ήταν πιο πιθανό να αυξηθούν οι βαθμολογίες τους».

Το άρθρο κατέληξε στο συμπέρασμα: «Οι κακοσχεδιασμένοι αλγόριθμοι κινδυνεύουν να εδραιώσουν μια νέα μορφή μεροληψίας που θα μπορούσε να έχει επιπτώσεις που υπερβαίνουν κατά πολύ την τοποθέτηση στο πανεπιστήμιο». Η βρετανική κυβέρνηση έκτοτε εγκατέλειψε τον αλγόριθμο, μετά από μαζική δημόσια κατακραυγή, συμπεριλαμβανομένων των μαθητών που είχαν πολύ καλύτερες επιδόσεις σε εικονικές εξετάσεις από ό,τι προέβλεπαν τα αλγοριθμικά τους αποτελέσματα.

Για να αποφευχθούν άδικα σενάρια που επηρεάζουν την τροχιά της ζωής των μαθητών, δεν θα πρέπει να χρησιμοποιούνται μοντέλα πρόβλεψης για τη λήψη αποφάσεων υψηλού αντίκτυπου χωρίς άτομα με εξειδίκευση στον τομέα να ελέγχουν κάθε αποτέλεσμα και να έχουν τη δύναμη να τα αμφισβητήσουν ή να τα παρακάμψουν. Αυτά τα μοντέλα πρέπει να είναι όσο το δυνατόν πιο διαφανή και εξηγήσιμα και τα δεδομένα και οι μέθοδοί τους πρέπει να είναι πλήρως τεκμηριωμένα και διαθέσιμα για αναθεώρηση. Οι αυτοματοποιημένες προβλέψεις μπορούν να ενημερώσουν τους ανθρώπους που λαμβάνουν αποφάσεις, αλλά δεν πρέπει να τις αντικαθιστούν. Επιπλέον, οι προβλέψεις θα πρέπει πάντα να συγκρίνονται με τα πραγματικά αποτελέσματα και τα μοντέλα πρέπει να παρακολουθούνται για να καθοριστεί πότε πρέπει να επανεκπαιδευτούν, δεδομένης της μεταβαλλόμενης πραγματικότητας.

Τελικά, ενώ το 2020 αποκάλυψε σκληρές αλήθειες για τα υπάρχοντα συστήματα και μοντέλα μας, το 2021 παρουσιάζει μια ευκαιρία για τα ιδρύματα να αναγνωρίσουν ελαττώματα, να αντιμετωπίσουν τις προκαταλήψεις και να επαναφέρουν προσεγγίσεις. Η επόμενη επανάληψη μοντέλων θα είναι πιο δυνατή γι' αυτό και οι καλύτερες πληροφορίες και ιδέες ωφελούν όλους.

Πηγή: https://www.edsurge.com/news/2021-04-16-can-college-predictive-models-survive-the-pandemic

Σφραγίδα ώρας:

Περισσότερα από Ed Surge