ChatGPT baant zich een weg door Wharton MBA, medische onderzoeken

Heruitgegeven door Plato

volgers: 0

OpenAI's chatsoftware ChatGPT zou, als het op de wereld losgelaten zou worden, scoren tussen een B en een B- op het Operations Management-examen van de Wharton Business School, en zou de score benaderen of overtreffen die nodig is om te slagen voor het US Medical Licensing Exam (USMLE).

Hoewel dit misschien meer zegt over de statische, documentgerichte aard van testmateriaal dan over de intellectuele bekwaamheid van software, is het niettemin een punt van zorg en interesse voor onderwijzers en zowat iedereen die in het tijdperk van automatisering leeft.

Academici maken zich zorgen dat ondersteunende systemen leuk zijn ChatGPT en GitHub's Copilot (gebaseerd op een OpenAI-model genaamd Codex) vereist dat leraren opnieuw evalueren hoe ze lesgeven en examens beoordelen, omdat ondersteunende technologie op basis van machine learning zo capabel is geworden.

In onderwijsomgevingen wordt AI-advies gemeengoed: The Stanford Daily net gerapporteerd, “een groot aantal studenten heeft ChatGPT al gebruikt bij hun eindexamen.” Naar schatting 17 procent van de studenten, gebaseerd op een anonieme peiling onder 4,497 respondenten, zei dat ze ChatGPT hadden gebruikt om te helpen bij opdrachten en examens in het najaar, terwijl 5 procent zei dat ze materiaal rechtstreeks vanuit ChatGPT hadden ingediend met weinig of geen bewerking - wat vermoedelijk een overtreding van de erecode.

Afzonderlijk besloten Christian Terwiesch, een professor aan de Wharton School van de Universiteit van Pennsylvania, en een groep medische onderzoekers die voornamelijk verbonden zijn aan Ansible Health, om ChatGPT, een aantoonbaar amorele geautomatiseerde adviseur en feitelijk betwist expertsysteem, op de proef gesteld.

Zowel Terwiesch als de experts van Ansible Health maakten duidelijk dat ChatGPT beperkingen heeft en dingen fout doet. Over het algemeen gaven ze het middelmatige cijfers, maar ze maakten duidelijk dat ze verwachten dat AI-hulpsystemen een plaats zullen vinden in het onderwijs en in andere sectoren.

Het model is tenslotte getraind op talloze stukjes door mensen gemaakt schrift, en dus is het niet onverwacht dat het een bevredigend antwoord op een vraag kan raden uit al die ingeademde kennis en factoïden.

"Ten eerste doet het geweldig werk bij fundamentele vragen over operationeel beheer en procesanalyse, inclusief vragen die gebaseerd zijn op casestudy's", zegt Terwiesch in zijn krant. “Niet alleen zijn de antwoorden correct, maar ook de uitleg is uitstekend.”

Dat gezegd hebbende, merkte hij op dat ChatGPT eenvoudige wiskundige fouten maakt en geavanceerde procesanalysevragen onhandig maakt. Het AI-model reageert echter op hints van mensen over hoe ze kunnen verbeteren - het kan zichzelf met succes corrigeren wanneer het hints krijgt van een menselijke expert.

Menselijke begeleiding heeft ook gediend als een bron van kwaadwillende input, zoals blijkt uit De Tay-chatbot van Microsoft en bij vervolgonderzoek.

Dokter, dokter

De medische onderzoeksgroep die schreef “Prestaties van ChatGPT op USMLE: potentieel voor AI-ondersteund medisch onderwijs met behulp van grote taalmodellen' bevat 'ChatGPT' als co-auteur.

"ChatGPT heeft bijgedragen aan het schrijven van verschillende delen van dit manuscript", stellen de biologische auteurs in hun paper.

Andere organisatorische voorkeuren van de auteurs zijn: Massachusetts General Hospital, Harvard School of Medicine, in Boston, Massachusetts; Warren Alpert Medical School, Brown University, in Providence, Rhode Island; en Department of Medical Education bij UWorld, LLC, een bedrijf voor e-learning op het gebied van gezondheid, gevestigd in Dallas, Texas.

De auteurs - Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo en Victor Tseng - kwamen tot een vergelijkbare conclusie als Wharton's Terwiesch . Ze ontdekten met name dat ChatGPT redelijk presteerde – boven de variabele slaagdrempel van ongeveer 60 procent – op het USMLE-examen, mits het voordeel van onbepaalde antwoorden werd gegeven. En ze verwachten dat grote taalmodellen (LLM's) een steeds grotere rol zullen spelen in medisch onderwijs en in klinische besluitvorming.

"ChatGPT levert een matige nauwkeurigheid die bijna voorbijgaande prestaties op USMLE benadert", stellen de auteurs in hun paper. “Examenitems werden eerst gecodeerd als open vragen met variabele inleidende prompts. Dit invoerformaat simuleert een vrij natuurlijk gebruikersquerypatroon. Met onbepaalde antwoorden gecensureerd/opgenomen, was de ChatGPT-nauwkeurigheid voor USMLE-stappen 1, 2CK en 3 respectievelijk 68.0 procent/42.9 procent, 58.3 procent/51.4 procent en 62.4 procent/55.7 procent.”

Het beschrijven van de prestaties van ChatGPT als "nadert passeren" is een genereuze manier om het te verwoorden, vooral omdat de AI de eer krijgt voor onbepaalde antwoorden. Aangekomen in het kantoor van een arts en een diploma zien adverteren met een graad D, kan de patiënt wat meer zorgen baren.

Maar de onderzoekers beweren dat de dingen die ChatGPT goed deed nauw overeenkwamen met de geaccepteerde antwoorden en dat het AI-model opmerkelijk is verbeterd, nadat het maanden eerder een slagingspercentage had behaald van slechts ongeveer 36.7 procent.

Interessant genoeg merkten ze op dat ChatGPT beter presteerde dan PubMedGPT, een LLM die uitsluitend is gebaseerd op biomedische gegevens die een nauwkeurigheid van slechts ongeveer 50.8 procent beheerde (op basis van niet-gepubliceerde gegevens).

"We speculeren dat domeinspecifieke training mogelijk meer ambivalentie heeft gecreëerd in het PubMedGPT-model, omdat het tekst uit de echte wereld absorbeert uit lopende academische verhandelingen die vaak onduidelijk, tegenstrijdig of zeer conservatief of vrijblijvend zijn in zijn taal", stellen de auteurs. .

In wezen lijkt ChatGPT door het minder wetenschappelijke, meer eigenzinnige materiaal dat in de training van ChatGPT is gebruikt, zoals pamfletten met uitleg over de patiënt, meer eigenwijs te hebben gemaakt.

"Naarmate AI steeds vaardiger wordt, zal het binnenkort alomtegenwoordig worden en de klinische geneeskunde in alle sectoren van de gezondheidszorg transformeren", concluderen de auteurs. vereist om documentatie en indirecte patiëntenzorgtaken te voltooien.

Dit verklaart misschien de beslissing van Microsoft om miljarden naar OpenAI te sluizen voor zijn toekomstige software.

Het nut van ChatGPT in een onderwijsomgeving – ondanks het feit dat het vaak verkeerd is – werd onderstreept in een blogpost zondag gepubliceerd door Thomas Rid, hoogleraar strategische studies en oprichter en directeur van het Alperovich Institute for Cybersecurity Studies.

Rid beschrijft een recente vijfdaagse cursus Malware-analyse en reverse-engineering, gegeven door Juan Andres Guerrero-Saade.

“Vijf dagen later twijfelde ik er niet meer aan: dit ding gaat het hoger onderwijs transformeren”, zegt Rid. “Ik was een van de studenten. En ik stond versteld van wat machine learning in realtime voor ons kon doen. En ik zeg dit als iemand die gehard was geweest scepticus van de artificiële intelligentiehype gedurende vele jaren. Merk op dat ik niet 'waarschijnlijke' transformatie zei. Het zal het hoger onderwijs transformeren.”

Guerrero-Saade, op een Twitter-thread, erkent dat ChatGPT het bij het verkeerde eind had, maar houdt vol dat de tool studenten heeft geholpen betere antwoorden te vinden. Hij suggereert dat het functioneert als een persoonlijke onderwijsassistent voor elke student.

“Angst zaaien rond AI (of buitensporige verwachtingen van perfecte output) vertroebelt de herkenning van het verbluffende nut van deze LLM: als een assistent die in staat is om snel informatie (goed of fout) samen te voegen met extreme relevantie voor een meer veeleisende intelligentie (de gebruiker) om mee te werken, ” Hij schreef.

Rid stelt dat hoewel de bezorgdheid over AI als mechanisme voor plagiaat en bedrog in het onderwijs moet worden aangepakt, de belangrijkste discussie te maken heeft met hoe AI-tools de onderwijsresultaten kunnen verbeteren. ®