ChatGPT kunne ikke bestå amerikanske gastroenterologiske eksamener

Genudgivet af Platon

Abonnenter: 0

ChatGPT har ikke bestået American College of Gastroenterology-eksamenerne og er ikke i stand til at generere nøjagtig medicinsk information til patienter, har læger advaret.

En undersøgelse ledet af læger ved Feinstein Institutes for Medical Research testede begge varianter af ChatGPT – drevet af OpenAIs ældre GPT-3.5-model og det seneste GPT-4-system. Det akademiske team kopierede og indsatte multiple choice-spørgsmålene fra 2021 og 2022 American College of Gastroenterology (ACG) selvevalueringstests i botten og analyserede softwarens svar.

Interessant nok besvarede den mindre avancerede version baseret på GPT-3.5 65.1 procent af de 455 spørgsmål korrekt, mens den mere kraftfulde GPT-4 scorede 62.4 procent. Hvordan det skete er svært at forklare, da OpenAI er hemmelighedsfuld omkring den måde, den træner sine modeller på. Dets talsmænd fortalte os i det mindste, at begge modeller blev trænet på data, der er dateret så nyligt som september 2021.

Under alle omstændigheder var ingen af resultaterne gode nok til at nå tærsklen på 70 procent for at bestå eksamenerne.

Arvind Trindade, lektor ved The Feinstein Institutes for Medical Research og seniorforfatter af undersøgelsen offentliggjort i American Journal of Gastroenterology, Fortalte Registret.

"Selvom scoren ikke er langt væk fra at bestå eller opnå en 70 procent, vil jeg hævde, at for medicinsk rådgivning eller medicinsk uddannelse, bør scoren være over 95."

"Jeg tror ikke, at en patient ville være tryg ved en læge, der kun kender 70 procent af hans eller hendes medicinske område. Hvis vi kræver denne høje standard for vores læger, bør vi kræve denne høje standard fra medicinske chatbots," tilføjede han.

American College of Gastroenterology uddanner læger, og dets tests bruges som praksis til officielle eksamener. For at blive en bestyrelsescertificeret gastroenterolog skal læger bestå American Board of Internal Medicine Gastroenterology eksamen. Det kræver viden og studier - ikke kun mavefornemmelse.

ChatGPT genererer svar ved at forudsige det næste ord i en given sætning. AI lærer almindelige mønstre i sine træningsdata for at finde ud af, hvilket ord der skal gå videre, og er delvist effektiv til at genkalde information. Selvom teknologien er blevet hurtigt forbedret, er den ikke perfekt og er ofte tilbøjelig til at hallucinere falske fakta – især hvis den bliver testet om nicheemner, der måske ikke er til stede i dens træningsdata.

"ChatGPTs grundlæggende funktion er at forudsige det næste ord i en tekststreng for at producere et forventet svar baseret på tilgængelig information, uanset om et sådant svar er faktuelt korrekt eller ej. Det har ikke nogen iboende forståelse af et emne eller problem, " forklarer avisen.

Trindade fortalte os, at det er muligt, at de gastroenterologiske oplysninger på websider, der bruges til at træne softwaren, ikke er nøjagtige, og at de bedste ressourcer som medicinske tidsskrifter eller databaser bør bruges.

Disse ressourcer er dog ikke let tilgængelige og kan låses inde bag betalingsmure. I så fald kan ChatGPT ikke have været tilstrækkeligt eksponeret for ekspertviden.

"Resultaterne er kun gældende for ChatGPT – andre chatbots skal valideres. Problemets kerne er, hvor disse chatbots henter informationen. I sin nuværende form bør ChatGPT ikke bruges til medicinsk rådgivning eller medicinsk uddannelse," konkluderede Trindade. ®