ChatGPT snakker seg gjennom Wharton MBA, medisinske eksamener

Publisert av Platon

Følgere: 0

OpenAIs chat-programvare ChatGPT, hvis den ble sluppet løs på verden, ville score mellom en B og en B- på Wharton Business Schools Operations Management-eksamen, og ville nærme seg eller overgå poengsummen som trengs for å bestå US Medical Licensing Exam (USMLE).

Selv om dette kan si mer om den statiske, dokumentsentriske naturen til testmateriale enn den intellektuelle dyktigheten til programvare, er det likevel et spørsmål om bekymring og interesse for lærere, og omtrent alle andre som lever i automatiseringens tidsalder.

Akademikere har vært bekymret for at hjelpesystemer liker ChatGPT og GitHub sine copilot (basert på en OpenAI-modell kalt Codex) vil kreve at lærere revurderer hvordan de underviser og markerer eksamener fordi hjelpeteknologi basert på maskinlæring har blitt så dyktig.

I utdanningsmiljøer er AI-råd i ferd med å bli vanlig: The Stanford Daily bare rapportert, "et stort antall studenter har allerede brukt ChatGPT på sine avsluttende eksamener." Anslagsvis 17 prosent av studentene, basert på en anonym meningsmåling av 4,497 5 respondenter, sa at de hadde brukt ChatGPT for å hjelpe til med høstkvartalsoppgaver og eksamener, med XNUMX prosent som sa at de hadde sendt inn materiale direkte fra ChatGPT med liten eller ingen redigering – noe som antagelig er et brudd på æreskodeksen.

Separat bestemte Christian Terwiesch, en professor ved Wharton School ved University of Pennsylvania, og en gruppe medisinske forskere hovedsakelig tilknyttet Ansible Health, å sette ChatGPT, en uten tvil amoralsk automatisert rådgiver og faktisk utfordret ekspertsystem, på prøve.

Både Terwiesch og Ansible Health-boffinene gjorde det klart at ChatGPT har begrensninger og tar feil. Totalt sett ga de det middels karakterer, men de gjorde det klart at de forventer at AI-hjelpesystemer vil finne en plass i undervisningen og i andre sektorer.

Modellen har tross alt blitt trent på utallige stykker menneskeskapt skrift, og derfor er dens evne til å anslå et tilfredsstillende svar på et spørsmål fra alt som inhalerte kunnskap og fakta ikke uventet.

"For det første gjør den en fantastisk jobb med grunnleggende operasjonsledelse og prosessanalysespørsmål, inkludert de som er basert på casestudier," sa Terwiesch i hans papir. "Ikke bare er svarene riktige, men forklaringene er utmerket."

Når det er sagt, observerte han at ChatGPT gjør enkle matematiske feil og fumler med avanserte prosessanalysespørsmål. Imidlertid er AI-modellen responsiv på hint fra folk om hvordan den kan forbedres – den kan korrigere seg selv når den gis hint fra en menneskelig ekspert.

Menneskelig veiledning har også fungert som en kilde til ondsinnede innspill, som demonstrert av Microsofts Tay chatbot og ved påfølgende forskning.

Lege, lege

Den medisinske forskningsgruppen som skrev "Ytelse av ChatGPT på USMLE: Potensial for AI-assistert medisinsk utdanning ved bruk av store språkmodeller" inkluderer "ChatGPT" som medforfatter.

"ChatGPT bidro til skrivingen av flere deler av dette manuskriptet," uttaler de biologiske forfatterne i sin artikkel.

Andre organisatoriske tilknytninger til forfatterne inkluderer: Massachusetts General Hospital, Harvard School of Medicine, i Boston, Mass; Warren Alpert Medical School, Brown University, i Providence, Rhode Island; og Institutt for medisinsk utdanning ved UWorld, LLC, et helse-e-læringsfirma med base i Dallas, Texas.

Forfatterne – Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo og Victor Tseng – kom til en lignende konklusjon som Whartons Terwiesch . Spesifikt fant de ut at ChatGPT presterte akseptabelt – over den variable beståttgrensen på omtrent 60 prosent – på USMLE-eksamenen, hvis de fikk fordelen av ubestemte svar. Og de forventer at store språkmodeller (LLMs) vil spille en økende rolle i medisinsk utdanning og i klinisk beslutningstaking.

"ChatGPT gir moderat nøyaktighet som nærmer seg bestått ytelse på USMLE," uttaler forfatterne i papiret sitt. "Eksamenselementer ble først kodet som åpne spørsmål med variable ledetekster. Dette inndataformatet simulerer et gratis naturlig brukerspørringsmønster. Med ubestemte svar sensurert/inkludert, var ChatGPT-nøyaktigheten for USMLE trinn 1, 2CK og 3 henholdsvis 68.0 prosent/42.9 prosent, 58.3 prosent/51.4 prosent og 62.4 prosent/55.7 prosent.»

Å beskrive ChatGPTs ytelse som "nærmer seg bestått" er en sjenerøs måte å formulere det på, spesielt med AI som gis æren for ubestemte svar. Å ankomme et legekontor og se et vitnemål som annonserer karakteren D, kan provosere litt mer bekymring blant pasientene.

Men forskerne hevder at tingene ChatGPT ble riktig i samsvar med aksepterte svar, og at AI-modellen har forbedret seg bemerkelsesverdig, etter å ha oppnådd en suksessrate på bare rundt 36.7 prosent måneder tidligere.

Interessant nok observerte de at ChatGPT presterte bedre enn PubMedGPT, en LLM basert utelukkende på biomedisinske data som klarte en nøyaktighet på bare rundt 50.8 prosent (basert på upubliserte data).

"Vi spekulerer i at domenespesifikk opplæring kan ha skapt større ambivalens i PubMedGPT-modellen, ettersom den absorberer tekst fra den virkelige verden fra pågående akademisk diskurs som har en tendens til å være inkonklusive, selvmotsigende eller svært konservativ eller uforpliktende på språket," uttaler forfatterne. .

I hovedsak ser det ut til at det mindre vitenskapelige, mer meningsfylte materialet som gikk inn i ChatGPTs opplæring, som brosjyrer for pasientforklaringer, har gjort ChatGPT mer selvstendig.

"Ettersom AI blir stadig mer dyktig, vil den snart bli allestedsnærværende, og transformere klinisk medisin på tvers av alle helsesektorer," konkluderer forfatterne, og legger til at klinikerne knyttet til AnsibleHealth har brukt ChatGPT i arbeidsflytene sine og har rapportert en reduksjon på 33 prosent i tiden. kreves for å fullføre dokumentasjon og indirekte pasientbehandlingsoppgaver.

Dette forklarer kanskje Microsofts avgjørelse å kanalisere milliarder inn i OpenAI for fremtidig programvare.

Nytten til ChatGPT i en utdanningssetting – til tross for at det ofte er feil – ble understreket i en blogginnlegg publisert søndag av Thomas Rid, professor i strategiske studier og grunnleggeren av Alperovich Institute for Cybersecurity Studies.

Rid beskriver et nylig fem-dagers Malware Analysis and Reverse Engineering-kurs undervist av Juan Andres Guerrero-Saade.

"Fem dager senere var jeg ikke lenger i tvil: denne tingen vil forandre høyere utdanning," sa Rid. «Jeg var en av elevene. Og jeg ble imponert over hva maskinlæring var i stand til å gjøre for oss, i sanntid. Og jeg sier dette som en som hadde vært en forherdet skeptiker av kunstig intelligens-hypen i mange år. Merk at jeg ikke sa "sannsynlig" transformasjon. Det vil forandre høyere utdanning."

Guerrero-Saade, i en Twitter-tråd, erkjenner at ChatGPT tok feil, men insisterer på at verktøyet hjalp elevene med å finne bedre svar. Han foreslår at den fungerer som en personlig undervisningsassistent for hver elev.

«Frykt rundt AI (eller overdimensjonerte forventninger om perfekte resultater) skyr gjenkjennelsen av denne LLMs svimlende nytte: som en assistent som raskt kan samle informasjon (rett eller galt) med ekstrem relevans for en mer kresne intelligens (brukeren) å jobbe med, ” han skrev.

Rid argumenterer for at selv om bekymringer rundt AI som en mekanisme for plagiering og juks i utdanning må tas opp, har den viktigere samtalen å gjøre med hvordan AI-verktøy kan forbedre utdanningsresultater. ®