ChatGPT n'a pas réussi les examens américains de gastroentérologie

ChatGPT n'a pas réussi les examens américains de gastroentérologie

Nœud source: 2682739

ChatGPT n'a pas réussi les examens de l'American College of Gastroenterology et n'est pas capable de générer des informations médicales précises pour les patients, ont averti les médecins.

Une étude menée par des médecins des instituts Feinstein de recherche médicale a testé les deux variantes de ChatGPT – alimentées par l'ancien modèle GPT-3.5 d'OpenAI et le dernier système GPT-4. L'équipe académique a copié et collé les questions à choix multiples tirées des tests d'auto-évaluation 2021 et 2022 de l'American College of Gastroenterology (ACG) dans le bot et a analysé les réponses du logiciel.

Fait intéressant, la version la moins avancée basée sur GPT-3.5 a répondu correctement à 65.1 % des 455 questions, tandis que la version plus puissante GPT-4 a obtenu 62.4 %. Comment cela s'est produit est difficile à expliquer car OpenAI est secret sur la façon dont il forme ses modèles. Ses porte-parole nous ont dit, au moins, que les deux modèles ont été formés sur des données aussi récentes que septembre 2021.

En tout cas, aucun des deux résultats n'était assez bon pour atteindre le seuil de 70% pour réussir les examens.

Arvind Trindade, professeur associé aux Feinstein Institutes for Medical Research et auteur principal de l'étude publié dans l' American Journal of Gastroenterology, A déclaré Le registre.

"Bien que le score ne soit pas loin de passer ou d'obtenir 70 pour cent, je dirais que pour un avis médical ou une formation médicale, le score devrait être supérieur à 95."

"Je ne pense pas qu'un patient serait à l'aise avec un médecin qui ne connaît que 70 % de son domaine médical. Si nous exigeons ce niveau élevé de la part de nos médecins, nous devrions exiger ce niveau élevé de la part des chatbots médicaux", a-t-il ajouté.

L'American College of Gastroenterology forme des médecins et ses tests sont utilisés comme pratique pour les examens officiels. Pour devenir gastro-entérologue certifié, les médecins doivent réussir l'examen de gastro-entérologie de l'American Board of Internal Medicine. Cela demande de la connaissance et de l'étude - pas seulement de l'intuition.

ChatGPT génère des réponses en prédisant le mot suivant dans une phrase donnée. L'IA apprend des modèles courants dans ses données d'entraînement pour déterminer quel mot doit être placé ensuite et est partiellement efficace pour rappeler des informations. Bien que la technologie se soit rapidement améliorée, elle n'est pas parfaite et est souvent encline à halluciner de faux faits – surtout si elle est interrogée sur des sujets de niche qui ne sont peut-être pas présents dans ses données de formation.

"La fonction de base de ChatGPT est de prédire le mot suivant dans une chaîne de texte pour produire une réponse attendue basée sur les informations disponibles, qu'une telle réponse soit factuellement correcte ou non. Il n'a aucune compréhension intrinsèque d'un sujet ou d'un problème, " explique le journal.

Trindade nous a dit qu'il est possible que les informations relatives à la gastro-entérologie sur les pages Web utilisées pour entraîner le logiciel ne soient pas exactes et que les meilleures ressources telles que des revues médicales ou des bases de données devraient être utilisées. 

Ces ressources, cependant, ne sont pas facilement disponibles et peuvent être enfermées derrière des murs payants. Dans ce cas, ChatGPT n'a peut-être pas été suffisamment exposé aux connaissances de l'expert.

"Les résultats ne s'appliquent qu'à ChatGPT – d'autres chatbots doivent être validés. Le nœud du problème est de savoir où ces chatbots obtiennent les informations. Dans sa forme actuelle, ChatGPT ne devrait pas être utilisé pour des conseils médicaux ou une formation médicale", a conclu Trindade. ®

Horodatage:

Plus de Le registre