ChatGPT si fa strada attraverso Wharton MBA, esami medici

Ripubblicato da Platone

Seguaci: 0

Il software di chat di OpenAI ChatGPT, se rilasciato nel mondo, otterrebbe un punteggio compreso tra B e B- all'esame di gestione delle operazioni della Wharton business school e si avvicinerebbe o supererebbe il punteggio necessario per superare l'esame di licenza medica statunitense (USMLE).

Sebbene questo possa dire di più sulla natura statica e incentrata sui documenti del materiale di test rispetto all'abilità intellettuale del software, è comunque una questione di preoccupazione e interesse per gli educatori e praticamente per tutti gli altri che vivono nell'era dell'automazione.

Gli accademici si sono preoccupati che i sistemi di assistenza come ChatGPT e di GitHub Secondo pilota (basato su un modello OpenAI chiamato Codex) richiederà agli insegnanti di rivalutare il modo in cui insegnano e valutare gli esami perché la tecnologia assistiva basata sull'apprendimento automatico è diventata così capace.

Negli ambienti educativi, i consigli sull'IA stanno diventando un luogo comune: The Stanford Daily solo segnalati, "un gran numero di studenti ha già utilizzato ChatGPT per gli esami finali". Si stima che il 17% degli studenti, sulla base di un sondaggio anonimo di 4,497 intervistati, abbia affermato di aver utilizzato ChatGPT per assistere agli incarichi e agli esami del trimestre autunnale, con il 5% che afferma di aver inviato materiale direttamente da ChatGPT con modifiche minime o nulle, il che è presumibilmente una violazione del codice d'onore.

Separatamente, Christian Terwiesch, professore presso la Wharton School dell'Università della Pennsylvania, e un gruppo di ricercatori medici per lo più affiliati ad Ansible Health, hanno deciso di inserire ChatGPT, un discutibile consulente automatizzato amorale e contestato di fatto sistema esperto, alla prova.

Sia Terwiesch che i cervelloni di Ansible Health hanno chiarito che ChatGPT ha dei limiti e sbaglia. Nel complesso, hanno dato voti mediocri, ma hanno chiarito che si aspettano che i sistemi di assistenza AI trovino un posto nell'insegnamento e in altri settori.

Il modello, dopotutto, è stato addestrato su innumerevoli pezzi di scrittura umana, quindi la sua capacità di indovinare una risposta soddisfacente a una domanda da tutta quella conoscenza e factoidi inalati non è inaspettata.

"In primo luogo, svolge un lavoro straordinario nella gestione delle operazioni di base e nelle domande di analisi dei processi, comprese quelle basate su casi di studio", ha affermato Terwiesch in la sua carta. "Non solo le risposte sono corrette, ma le spiegazioni sono eccellenti."

Detto questo, ha osservato che ChatGPT commette semplici errori matematici e armeggia con domande avanzate di analisi dei processi. Tuttavia, il modello AI risponde ai suggerimenti delle persone su come migliorare: può correggersi con successo quando riceve suggerimenti da un esperto umano.

La guida umana è stata anche fonte di input dannosi, come dimostrato da Il chatbot Tay di Microsoft e ricerche successive.

Dottore, dottore

Il gruppo di ricerca medica che ha scritto “Prestazioni di ChatGPT su USMLE: potenziale per l'educazione medica assistita dall'intelligenza artificiale utilizzando modelli linguistici di grandi dimensioni” include “ChatGPT” come coautore.

"ChatGPT ha contribuito alla stesura di diverse sezioni di questo manoscritto", affermano gli autori biologici nel loro documento.

Altre affiliazioni organizzative degli autori includono: Massachusetts General Hospital, Harvard School of Medicine, a Boston, Mass; Warren Alpert Medical School, Brown University, a Providence, Rhode Island; e Department of Medical Education presso UWorld, LLC, una società di e-learning sulla salute con sede a Dallas, in Texas.

Gli autori - Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo e Victor Tseng - sono giunti a una conclusione simile a Terwiesch di Wharton . Nello specifico, hanno scoperto che ChatGPT si è comportato in modo accettabile - al di sopra della soglia di superamento variabile di circa il 60 percento - nell'esame USMLE, se si disponeva del vantaggio di risposte indeterminate. E si aspettano che i grandi modelli linguistici (LLM) giocheranno un ruolo crescente nell'educazione medica e nel processo decisionale clinico.

"ChatGPT produce una precisione moderata che si avvicina alle prestazioni di passaggio su USMLE", affermano gli autori nel loro articolo. “Gli elementi dell'esame sono stati inizialmente codificati come domande a risposta aperta con suggerimenti introduttivi variabili. Questo formato di input simula un modello di query dell'utente naturale gratuito. Con le risposte indeterminate censurate/incluse, l'accuratezza di ChatGPT per i passaggi 1, 2CK e 3 di USMLE è stata rispettivamente del 68.0%/42.9%, 58.3%/51.4% e 62.4%/55.7%.

Descrivere le prestazioni di ChatGPT come "avvicinamento al passaggio" è un modo generoso di esprimerlo, in particolare con l'intelligenza artificiale che riceve il merito di risposte indeterminate. Arrivare nello studio di un medico e vedere un diploma che pubblicizza un grado D potrebbe provocare un po' più di preoccupazione tra i pazienti.

Ma i ricercatori sostengono che le cose che ChatGPT ha fatto bene erano strettamente conformi alle risposte accettate e che il modello AI è migliorato notevolmente, avendo raggiunto mesi prima un tasso di successo di solo il 36.7% circa.

È interessante notare che hanno osservato che ChatGPT ha ottenuto risultati migliori rispetto a PubMedGPT, un LLM basato esclusivamente su dati biomedici che gestiva un'accuratezza di solo circa il 50.8% (basata su dati non pubblicati).

"Ipotizziamo che la formazione specifica del dominio possa aver creato una maggiore ambivalenza nel modello PubMedGPT, poiché assorbe il testo del mondo reale dal discorso accademico in corso che tende ad essere inconcludente, contraddittorio o altamente conservatore o non impegnativo nella sua lingua", affermano gli autori .

In sostanza, il materiale meno scientifico e più supponente che è entrato nella formazione di ChatGPT, come gli opuscoli di spiegazione delle malattie rivolti ai pazienti, sembra aver reso ChatGPT più supponente.

"Man mano che l'intelligenza artificiale diventa sempre più competente, diventerà presto onnipresente, trasformando la medicina clinica in tutti i settori sanitari", concludono gli autori, aggiungendo che i medici associati ad AnsibleHealth hanno utilizzato ChatGPT nei loro flussi di lavoro e hanno riportato una riduzione del 33% nel tempo necessario per completare la documentazione e le attività di assistenza indiretta al paziente.

Questo forse spiega la decisione di Microsoft per incanalare miliardi in OpenAI per il suo futuro software.

L'utilità di ChatGPT in ambito educativo, nonostante sia spesso sbagliata, è stata sottolineata in a post sul blog pubblicato domenica da Thomas Rid, professore di studi strategici e direttore fondatore dell'Istituto Alperovich per gli studi sulla sicurezza informatica.

Rid descrive un recente corso di cinque giorni di Malware Analysis e Reverse Engineering tenuto da Juan Andres Guerrero-Saade.

"Cinque giorni dopo non avevo più dubbi: questa cosa trasformerà l'istruzione superiore", ha detto Rid. “Ero uno degli studenti. E sono rimasto sbalordito da ciò che l'apprendimento automatico è stato in grado di fare per noi, in tempo reale. E lo dico come qualcuno che era stato un incallito scettico del clamore dell'intelligenza artificiale per molti anni. Nota che non ho detto trasformazione "probabile". Trasformerà l'istruzione superiore”.

Guerrero-Saade, in un thread di Twitter, riconosce che ChatGPT ha sbagliato, ma insiste sul fatto che lo strumento ha aiutato gli studenti a trovare risposte migliori. Suggerisce che funzioni come un assistente didattico personale per ogni studente.

"La paura dell'intelligenza artificiale (o aspettative fuori misura di risultati perfetti) offusca il riconoscimento dell'incredibile utilità di questo LLM: come un assistente in grado di unire rapidamente informazioni (giuste o sbagliate) con estrema rilevanza per un'intelligenza più perspicace (l'utente) con cui lavorare, " ha scritto.

Rid sostiene che mentre è necessario affrontare le preoccupazioni sull'intelligenza artificiale come meccanismo di plagio e imbroglio nell'istruzione, la conversazione più importante ha a che fare con il modo in cui gli strumenti di intelligenza artificiale possono migliorare i risultati educativi. ®