ChatGPT kunne ikke bestå amerikansk gastroenterologi-eksamen

Publisert av Platon

Følgere: 0

ChatGPT har ikke klart å bestå American College of Gastroenterology eksamener og er ikke i stand til å generere nøyaktig medisinsk informasjon for pasienter, har leger advart.

En studie ledet av leger ved Feinstein Institutes for Medical Research testet begge variantene av ChatGPT – drevet av OpenAIs eldre GPT-3.5-modell og det nyeste GPT-4-systemet. Det akademiske teamet kopierte og limte inn flervalgsspørsmålene hentet fra 2021 og 2022 American College of Gastroenterology (ACG) Self-Assessment Tests i boten, og analyserte programvarens svar.

Interessant nok svarte den mindre avanserte versjonen basert på GPT-3.5 65.1 prosent av de 455 spørsmålene riktig, mens den kraftigere GPT-4 fikk 62.4 prosent. Hvordan det skjedde er vanskelig å forklare ettersom OpenAI er hemmelighetsfull om måten den trener modellene sine på. Talsmennene fortalte oss at begge modellene i det minste ble trent på data datert så nylig som september 2021.

Uansett var ingen av resultatene gode nok til å nå terskelen på 70 prosent for å bestå eksamen.

Arvind Trindade, førsteamanuensis ved The Feinstein Institutes for Medical Research og seniorforfatter av studien publisert i American Journal of Gastroenterology, Fortalte Registeret.

"Selv om poengsummen ikke er langt unna å bestå eller oppnå 70 prosent, vil jeg hevde at for medisinsk rådgivning eller medisinsk utdanning, bør poengsummen være over 95."

"Jeg tror ikke en pasient ville være komfortabel med en lege som bare kjenner 70 prosent av sitt medisinske felt. Hvis vi krever denne høye standarden for våre leger, bør vi kreve denne høye standarden fra medisinske chatbots," la han til.

American College of Gastroenterology trener leger, og testene deres brukes som praksis for offisielle eksamener. For å bli en styresertifisert gastroenterolog, må leger bestå American Board of Internal Medicine Gastroenterology eksamen. Det krever kunnskap og studier – ikke bare magefølelse.

ChatGPT genererer svar ved å forutsi neste ord i en gitt setning. AI lærer vanlige mønstre i treningsdataene sine for å finne ut hvilket ord som skal gå videre, og er delvis effektiv til å gjenkalle informasjon. Selv om teknologien har forbedret seg raskt, er den ikke perfekt og er ofte tilbøyelig til å hallusinere falske fakta – spesielt hvis den blir spurt om nisjeemner som kanskje ikke er til stede i treningsdataene.

"ChatGPTs grunnleggende funksjon er å forutsi neste ord i en tekststreng for å produsere en forventet respons basert på tilgjengelig informasjon, uavhengig av om et slikt svar er faktisk korrekt eller ikke. Det har ingen iboende forståelse av et emne eller problemstilling, ", forklarer avisen.

Trindade fortalte oss at det er mulig at den gastroenterologirelaterte informasjonen på nettsider som brukes til å trene programvaren ikke er nøyaktig, og at de beste ressursene som medisinske tidsskrifter eller databaser bør brukes.

Disse ressursene er imidlertid ikke lett tilgjengelige og kan låses bak betalingsmurer. I så fall kan det hende at ChatGPT ikke har vært tilstrekkelig eksponert for ekspertkunnskapen.

"Resultatene gjelder kun for ChatGPT – andre chatboter må valideres. Problemets kjerne er hvor disse chatbotene henter informasjonen. I sin nåværende form skal ikke ChatGPT brukes til medisinsk rådgivning eller medisinsk utdanning," konkluderte Trindade. ®