ChatGPT konnte die Gastroenterologieprüfungen in den USA nicht bestehen

Neuauflage von Plato

Verfolger: 0

ChatGPT hat die Prüfungen des American College of Gastroenterology nicht bestanden und ist nicht in der Lage, genaue medizinische Informationen für Patienten zu generieren, warnen Ärzte.

In einer von Ärzten des Feinstein Institutes for Medical Research durchgeführten Studie wurden beide Varianten von ChatGPT getestet – basierend auf dem älteren GPT-3.5-Modell von OpenAI und dem neuesten GPT-4-System. Das akademische Team kopierte und fügte die Multiple-Choice-Fragen aus den Selbsteinschätzungstests des American College of Gastroenterology (ACG) 2021 und 2022 in den Bot ein und analysierte die Antworten der Software.

Interessanterweise beantwortete die weniger fortgeschrittene Version auf Basis von GPT-3.5 65.1 Prozent der 455 Fragen richtig, während das leistungsstärkere GPT-4 62.4 Prozent erreichte. Wie das passiert ist, ist schwer zu erklären, da OpenAI geheim hält, wie es seine Modelle trainiert. Die Sprecher teilten uns zumindest mit, dass beide Modelle auf Daten trainiert wurden, die erst im September 2021 datiert waren.

In jedem Fall war keines der Ergebnisse gut genug, um die 70-Prozent-Hürde zum Bestehen der Prüfungen zu erreichen.

Arvind Trindade, außerordentlicher Professor am Feinstein Institutes for Medical Research und leitender Autor der Studie veröffentlicht der Amerikanisches Journal für Gastroenterologie, Sagte Das Register.

„Obwohl die Punktzahl nicht weit davon entfernt ist, 70 Prozent zu bestehen oder zu erreichen, würde ich argumentieren, dass die Punktzahl für medizinische Beratung oder medizinische Ausbildung über 95 liegen sollte.“

„Ich glaube nicht, dass sich ein Patient bei einem Arzt wohlfühlen würde, der nur 70 Prozent seines medizinischen Fachgebiets kennt. Wenn wir diesen hohen Standard von unseren Ärzten verlangen, sollten wir diesen hohen Standard auch von medizinischen Chatbots verlangen“, fügte er hinzu.

Das American College of Gastroenterology bildet Ärzte aus und seine Tests werden als Übung für offizielle Prüfungen verwendet. Um ein staatlich geprüfter Gastroenterologe zu werden, müssen Ärzte die Prüfung zum American Board of Internal Medicine Gastroenterology bestehen. Das erfordert Wissen und Studium – nicht nur Bauchgefühl.

ChatGPT generiert Antworten, indem es das nächste Wort in einem bestimmten Satz vorhersagt. KI lernt in ihren Trainingsdaten gängige Muster, um herauszufinden, welches Wort als nächstes kommen soll, und ist teilweise effektiv beim Abrufen von Informationen. Obwohl sich die Technologie schnell verbessert hat, ist sie nicht perfekt und neigt häufig dazu, falsche Fakten zu halluzinieren – insbesondere, wenn es um Nischenthemen geht, die möglicherweise nicht in den Trainingsdaten enthalten sind.

„Die Grundfunktion von ChatGPT besteht darin, das nächste Wort in einer Textfolge vorherzusagen, um auf der Grundlage der verfügbaren Informationen eine erwartete Antwort zu erzeugen, unabhängig davon, ob eine solche Antwort sachlich korrekt ist oder nicht. Es hat kein intrinsisches Verständnis eines Themas oder Problems, ", erklärt das Papier.

Trindade sagte uns, dass es möglich sei, dass die gastroenterologischen Informationen auf Webseiten, die zum Trainieren der Software verwendet würden, nicht korrekt seien und dass die besten Ressourcen wie medizinische Fachzeitschriften oder Datenbanken genutzt werden sollten.

Diese Ressourcen sind jedoch nicht ohne weiteres verfügbar und können hinter Paywalls gesperrt werden. In diesem Fall war ChatGPT möglicherweise nicht ausreichend mit dem Expertenwissen vertraut.

„Die Ergebnisse sind nur auf ChatGPT anwendbar – andere Chatbots müssen validiert werden. Der Kern des Problems besteht darin, wo diese Chatbots die Informationen erhalten. In seiner aktuellen Form sollte ChatGPT nicht für medizinische Beratung oder medizinische Ausbildung verwendet werden“, schloss Trindade. ®