ChatGPT talar sin väg genom Wharton MBA, medicinska undersökningar

Återutgiven av Platon

anhängare: 0

OpenAI:s chattmjukvara ChatGPT, om den släpps lös på världen, skulle få poäng mellan B och B- på Wharton Business Schools Operations Management-examen och skulle närma sig eller överträffa poängen som krävs för att klara US Medical Licensing Exam (USMLE).

Även om detta kan säga mer om den statiska, dokumentcentrerade karaktären hos testmaterial än programvarans intellektuella skicklighet, är det inte desto mindre en fråga om oro och intresse för lärare och nästan alla andra som lever i automationsåldern.

Akademiker har grämt sig över att hjälpsystem gillar ChatGPT och GitHubs Copilot (baserat på en OpenAI-modell kallad Codex) kommer att kräva att lärare omvärderar hur de undervisar och markerar tentor eftersom hjälpmedel baserad på maskininlärning har blivit så kapabel.

I utbildningsmiljöer blir AI-råd vardagligt: The Stanford Daily just rapporterade, "ett stort antal studenter har redan använt ChatGPT på sina slutprov." Uppskattningsvis 17 procent av studenterna, baserat på en anonym enkät med 4,497 5 svarande, sa att de hade använt ChatGPT för att hjälpa till med höstens inlämningar och prov, med XNUMX procent som sa att de hade skickat in material direkt från ChatGPT med liten eller ingen redigering – vilket förmodligen är ett brott mot hederskodexen.

Separat beslutade Christian Terwiesch, en professor vid Wharton School vid University of Pennsylvania, och en grupp medicinska forskare, mestadels knutna till Ansible Health, att sätta ChatGPT, en utan tvekan amoralisk automatiserad rådgivare och faktiskt utmanade expertsystem, på prov.

Både Terwiesch och Ansible Health-boffinerna gjorde klart att ChatGPT har begränsningar och får saker fel. Sammantaget gav de det medelmåttiga betyg men de gjorde det klart att de förväntar sig att AI-hjälpsystem kommer att hitta en plats i undervisningen och i andra sektorer.

Modellen har trots allt tränats på otaliga stycken av mänskligt skapat skrivande, och därför är dess förmåga att gissa ett tillfredsställande svar på en fråga från allt som inhalerat kunskap och fakta inte oväntat.

"För det första gör det ett fantastiskt jobb med grundläggande driftledning och processanalysfrågor, inklusive de som är baserade på fallstudier," sa Terwiesch i hans papper. "Svaren är inte bara korrekta, utan förklaringarna är utmärkta."

Som sagt, han observerade att ChatGPT gör enkla matematiska misstag och fumlar avancerade processanalysfrågor. AI-modellen är dock lyhörd för tips från människor om hur man kan förbättra – den kan framgångsrikt korrigera sig själv när den ges tips från en mänsklig expert.

Mänsklig vägledning har också fungerat som en källa till skadlig input, vilket framgår av Microsofts Tay chatbot och genom att efterföljande forskning.

Doktor, doktor

Den medicinska forskargruppen som skrev "Prestanda för ChatGPT på USMLE: Potential för AI-assisterad medicinsk utbildning med hjälp av stora språkmodeller” inkluderar ”ChatGPT” som medförfattare.

"ChatGPT bidrog till att skriva flera sektioner av detta manuskript", säger de biologiska författarna i sin uppsats.

Andra organisatoriska anknytningar till författarna inkluderar: Massachusetts General Hospital, Harvard School of Medicine, i Boston, Mass; Warren Alpert Medical School, Brown University, i Providence, Rhode Island; och Institutionen för medicinsk utbildning vid UWorld, LLC, ett hälso-e-lärande företag baserat i Dallas, Texas.

Författarna – Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo och Victor Tseng – kom till en liknande slutsats som Whartons Terwiesch . Specifikt fann de att ChatGPT presterade tveksamt – över den variabla godkända tröskeln på cirka 60 procent – på USMLE-provet, om de gavs fördelen av obestämda svar. Och de förväntar sig att stora språkmodeller (LLM) kommer att spela en växande roll i medicinsk utbildning och i kliniskt beslutsfattande.

"ChatGPT ger måttlig noggrannhet som närmar sig godkänd prestanda på USMLE", säger författarna i sin artikel. "Examinationsobjekt kodades först som öppna frågor med variabla inledningsuppmaningar. Detta inmatningsformat simulerar ett fritt naturligt frågemönster för användare. Med obestämda svar censurerade/inkluderade var ChatGPT-noggrannheten för USMLE steg 1, 2CK och 3 68.0 procent/42.9 procent, 58.3 procent/51.4 procent respektive 62.4 procent/55.7 procent.”

Att beskriva ChatGPT:s prestanda som att "närma sig passerande" är ett generöst sätt att formulera det på, särskilt med AI:n som får kredit för obestämda svar. Att komma till en läkarmottagning och se ett diplom som annonserar betyget D kan väcka lite mer oro bland patienterna.

Men forskarna hävdar att de saker som ChatGPT blev rätt överensstämde nära med accepterade svar och att AI-modellen har förbättrats anmärkningsvärt, efter att månader tidigare ha uppnått en framgångsfrekvens på endast cirka 36.7 procent.

Intressant nog observerade de att ChatGPT presterade bättre än PubMedGPT, ett LLM baserat enbart på biomedicinsk data som hanterade en noggrannhet på endast cirka 50.8 procent (baserat på opublicerade data).

"Vi spekulerar i att domänspecifik utbildning kan ha skapat större ambivalens i PubMedGPT-modellen, eftersom den absorberar verklig text från pågående akademisk diskurs som tenderar att vara ofullständig, motsägelsefull eller mycket konservativ eller icke-bindande i sitt språk", säger författarna. .

I grund och botten verkar det mindre vetenskapliga, mer åsiktsfulla materialet som gick in i ChatGPT:s utbildning, som broschyrer för förklaringar av patienten mot sjukdomar, ha gjort ChatGPT mer åsiktsfullt.

"I takt med att AI blir allt mer skicklig kommer den snart att bli allestädes närvarande, vilket förändrar klinisk medicin i alla hälsosektorer," avslutar författarna och tillägger att klinikerna som är associerade med AnsibleHealth har använt ChatGPT i sina arbetsflöden och har rapporterat en 33-procentig minskning av tiden krävs för att slutföra dokumentation och indirekta patientvårdsuppgifter.

Detta kanske förklarar Microsofts beslut att kanalisera miljarder till OpenAI för dess framtida programvara.

Användbarheten av ChatGPT i en utbildningsmiljö – trots att det ofta är fel – underströks i en blogginlägg publicerad söndag av Thomas Rid, professor i strategiska studier och grundaren av Alperovich Institute for Cybersecurity Studies.

Rid beskriver en nyligen fem dagar lång kurs i Malware Analysis and Reverse Engineering som lärs ut av Juan Andres Guerrero-Saade.

"Fem dagar senare hade jag inte längre några tvivel: det här kommer att förändra högre utbildning," sa Rid. "Jag var en av eleverna. Och jag blev imponerad av vad maskininlärning kunde göra för oss, i realtid. Och jag säger detta som någon som hade varit en förhärdad skeptiker av artificiell intelligens-hypen i många år. Observera att jag inte sa "sannolik" transformation. Det kommer att förändra högre utbildning.”

Guerrero-Saade, in en Twitter-tråd, erkänner att ChatGPT hade fel men insisterar på att verktyget hjälpte eleverna att komma med bättre svar. Han föreslår att det fungerar som en personlig lärarassistent för varje elev.

"Rädsla kring AI (eller överdimensionerade förväntningar på perfekta resultat) grumlar igenkännandet av detta LLM:s häpnadsväckande verktyg: som en assistent som snabbt kan sammanfoga information (rätt eller fel) med extrem relevans för en mer kräsna intelligens (användaren) att arbeta med, ” han skrev.

Rid hävdar att även om oron för AI som en mekanism för plagiat och fusk inom utbildning måste åtgärdas, har det viktigare samtalet att göra med hur AI-verktyg kan förbättra utbildningsresultat. ®