ChatGPT taler sin vej gennem Wharton MBA, medicinske eksamener

Genudgivet af Platon

Abonnenter: 0

OpenAI's chatsoftware ChatGPT, hvis den blev sluppet løs på verden, ville score mellem en B og en B- på Wharton Business Schools Operations Management-eksamen og ville nærme sig eller overstige den score, der er nødvendig for at bestå US Medical Licensing Exam (USMLE).

Selvom dette kan sige mere om testmaterialets statiske, dokumentcentrerede karakter end softwarens intellektuelle dygtighed, er det ikke desto mindre et spørgsmål om bekymring og interesse for undervisere og næsten alle andre, der lever i automatiseringens tidsalder.

Akademikere har ærgret sig over, at hjælpesystemer kan lide ChatGPT og GitHub's CoPilot (baseret på en OpenAI-model kaldet Codex) vil kræve, at lærere revurderer, hvordan de underviser og markerer eksamener, fordi hjælpeteknologi baseret på maskinlæring er blevet så dygtig.

I uddannelsesmiljøer er AI-råd ved at blive almindelige: The Stanford Daily bare rapporteret, "et stort antal studerende har allerede brugt ChatGPT på deres afsluttende eksamener." Anslået 17 procent af eleverne, baseret på en anonym meningsmåling med 4,497 respondenter, sagde, at de havde brugt ChatGPT til at hjælpe med efterårskvartalsopgaver og eksamener, hvor 5 procent sagde, at de havde indsendt materiale direkte fra ChatGPT med ringe eller ingen redigering – hvilket formentlig er en overtrædelse af æreskodeksen.

Separat besluttede Christian Terwiesch, en professor ved Wharton School ved University of Pennsylvania, og en gruppe medicinske forskere, hovedsagelig tilknyttet Ansible Health, at sætte ChatGPT, en velsagtens amoralsk automatiseret rådgiver og faktuelt udfordret ekspertsystem, på prøve.

Både Terwiesch og Ansible Health-boffinerne gjorde det klart, at ChatGPT har begrænsninger og tager fejl. Samlet set gav de det middelkarakterer, men de gjorde det klart, at de forventer, at AI-hjælpesystemer vil finde en plads i undervisningen og i andre sektorer.

Modellen er trods alt blevet trænet på utallige stykker menneskeskabt skrift, og så dens evne til at gætte et tilfredsstillende svar på et spørgsmål fra al den indåndede viden og fakta er ikke uventet.

"For det første gør det et fantastisk stykke arbejde med grundlæggende driftsledelse og procesanalysespørgsmål, inklusive dem, der er baseret på casestudier," sagde Terwiesch i hans papir. "Ikke kun er svarene korrekte, men forklaringerne er fremragende."

Når det er sagt, observerede han, at ChatGPT laver simple matematiske fejl og fumler med avancerede procesanalysespørgsmål. Imidlertid er AI-modellen lydhør over for hints fra folk om, hvordan man kan forbedre sig - den kan med succes rette sig selv, når den gives hints fra en menneskelig ekspert.

Menneskelig vejledning har også tjent som en kilde til ondsindet input, som demonstreret af Microsofts Tay chatbot og efterfølgende forskning.

Læge, læge

Den medicinske forskningsgruppe, der skrev "Ydeevne af ChatGPT på USMLE: Potentiale for AI-assisteret medicinsk uddannelse ved hjælp af store sprogmodeller” inkluderer “ChatGPT” som medforfatter.

"ChatGPT bidrog til at skrive flere sektioner af dette manuskript," siger de biologiske forfattere i deres papir.

Andre organisatoriske tilknytninger af forfatterne omfatter: Massachusetts General Hospital, Harvard School of Medicine, i Boston, Mass; Warren Alpert Medical School, Brown University, i Providence, Rhode Island; og Department of Medical Education ved UWorld, LLC, et sundheds-e-læringsfirma med base i Dallas, Texas.

Forfatterne – Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo og Victor Tseng – kom til en lignende konklusion som Whartons Terwiesch . Specifikt fandt de ud af, at ChatGPT klarede sig acceptabelt - over den variable beståelsestærskel på omkring 60 procent - på USMLE-eksamenen, hvis de fik fordelen af ubestemte svar. Og de forventer, at store sprogmodeller (LLM'er) vil spille en voksende rolle i medicinsk uddannelse og i klinisk beslutningstagning.

"ChatGPT giver moderat nøjagtighed, der nærmer sig bestået præstation på USMLE," siger forfatterne i deres papir. “Eksamensemner blev først kodet som åbne spørgsmål med variable indledningsprompter. Dette inputformat simulerer et gratis naturligt brugerforespørgselsmønster. Med ubestemte svar censureret/inkluderet, var ChatGPT-nøjagtigheden for USMLE Trin 1, 2CK og 3 henholdsvis 68.0 procent/42.9 procent, 58.3 procent/51.4 procent og 62.4 procent/55.7 procent."

At beskrive ChatGPT's præstation som "nærmer sig bestået" er en generøs måde at formulere det på, især med AI'en, der får kredit for ubestemte svar. At ankomme til en læges kontor og se et diplom, der reklamerer med en karakter på D, kan vække lidt mere bekymring blandt patienterne.

Men forskerne fastholder, at de ting, ChatGPT fik rigtigt, var tæt på de accepterede svar, og at AI-modellen er forbedret bemærkelsesværdigt, efter at have måneder tidligere opnået en succesrate på kun omkring 36.7 procent.

Interessant nok observerede de, at ChatGPT klarede sig bedre end PubMedGPT, en LLM udelukkende baseret på biomedicinske data, der kun klarede en nøjagtighed på omkring 50.8 procent (baseret på upublicerede data).

"Vi spekulerer i, at domænespecifik træning kan have skabt større ambivalens i PubMedGPT-modellen, da den absorberer tekst fra den virkelige verden fra igangværende akademiske diskurser, der har tendens til at være inkonklusive, modstridende eller meget konservativ eller uforpligtende i sit sprog," siger forfatterne. .

I det væsentlige ser det mindre videnskabelige, mere meningsfyldte materiale, der gik ind i ChatGPT's træning, som pamfletter med patientvendte sygdomsforklaringer, ud til at have gjort ChatGPT mere holdningsbevidst.

"Efterhånden som AI bliver mere og mere dygtig, vil den snart blive allestedsnærværende og transformere klinisk medicin på tværs af alle sundhedssektorer," konkluderer forfatterne og tilføjer, at klinikerne tilknyttet AnsibleHealth har brugt ChatGPT i deres arbejdsgange og har rapporteret en reduktion på 33 procent i tiden. kræves for at fuldføre dokumentation og indirekte patientplejeopgaver.

Dette forklarer måske Microsofts beslutning at kanalisere milliarder ind i OpenAI for dets fremtidige software.

Nytten af ChatGPT i et uddannelsesmiljø – på trods af at det ofte er forkert – blev understreget i en blogindlæg offentliggjort søndag af Thomas Rid, professor i strategiske studier og grundlægger af direktøren for Alperovich Institute for Cybersecurity Studies.

Rid beskriver et nyligt fem-dages Malware Analysis and Reverse Engineering-kursus undervist af Juan Andres Guerrero-Saade.

"Fem dage senere var jeg ikke længere i tvivl: denne ting vil ændre videregående uddannelse," sagde Rid. ”Jeg var en af eleverne. Og jeg blev blæst bagover af, hvad maskinlæring var i stand til at gøre for os i realtid. Og jeg siger det som en, der havde været en hærdet skeptiker af kunstig intelligens-hypen i mange år. Bemærk, at jeg ikke sagde "sandsynlig" transformation. Det vil transformere de videregående uddannelser.”

Guerrero-Saade, i en Twitter-tråd, erkender, at ChatGPT tog fejl, men insisterer på, at værktøjet hjalp eleverne med at komme med bedre svar. Han foreslår, at det fungerer som en personlig undervisningsassistent for hver elev.

"Frygtangreb omkring kunstig intelligens (eller overdimensionerede forventninger om perfekte output) forplumrer anerkendelsen af denne LLMs svimlende nytte: som en assistent, der hurtigt kan samle information (rigtigt eller forkert) med ekstrem relevans for en mere kræsen intelligens (brugeren) at arbejde med, ” han skrev.

Rid hævder, at selvom bekymringer om AI som en mekanisme for plagiat og snyd i uddannelse skal behandles, har den vigtigere samtale at gøre med, hvordan AI-værktøjer kan forbedre uddannelsesresultater. ®