ChatGPT no pudo aprobar los exámenes de gastroenterología de EE. UU.

ChatGPT no pudo aprobar los exámenes de gastroenterología de EE. UU.

Nodo de origen: 2682739

ChatGPT no aprobó los exámenes del Colegio Americano de Gastroenterología y no es capaz de generar información médica precisa para los pacientes, advirtieron los médicos.

Un estudio dirigido por médicos de los Institutos Feinstein de Investigación Médica probó ambas variantes de ChatGPT, impulsadas por el modelo GPT-3.5 más antiguo de OpenAI y el último sistema GPT-4. El equipo académico copió y pegó las preguntas de opción múltiple tomadas de las pruebas de autoevaluación del Colegio Americano de Gastroenterología (ACG) de 2021 y 2022 en el bot y analizó las respuestas del software.

Curiosamente, la versión menos avanzada basada en GPT-3.5 respondió correctamente el 65.1 por ciento de las 455 preguntas, mientras que la más potente GPT-4 obtuvo un 62.4 por ciento. Es difícil explicar cómo sucedió eso, ya que OpenAI guarda en secreto la forma en que entrena sus modelos. Sus portavoces nos dijeron que, al menos, ambos modelos fueron entrenados con datos de fecha tan reciente como septiembre de 2021.

En cualquier caso, ninguno de los resultados fue lo suficientemente bueno como para alcanzar el umbral del 70 por ciento para aprobar los exámenes.

Arvind Trindade, profesor asociado de los Institutos Feinstein de Investigación Médica y autor principal del estudio publicado existentes American Journal of Gastroenterology, Dijo El registro.

"Aunque la puntuación no está muy lejos de aprobar u obtener un 70 por ciento, yo diría que para recibir asesoramiento médico o educación médica, la puntuación debería ser superior a 95".

"No creo que un paciente se sienta cómodo con un médico que sólo conoce el 70 por ciento de su campo médico. Si exigimos este alto nivel a nuestros médicos, deberíamos exigir este alto nivel a los chatbots médicos", añadió.

El Colegio Americano de Gastroenterología capacita a los médicos y sus pruebas se utilizan como práctica para los exámenes oficiales. Para convertirse en un gastroenterólogo certificado por la junta, los médicos deben aprobar el examen de Gastroenterología de la Junta Estadounidense de Medicina Interna. Eso requiere conocimiento y estudio, no solo intuición.

ChatGPT genera respuestas prediciendo la siguiente palabra en una oración determinada. La IA aprende patrones comunes en sus datos de entrenamiento para determinar qué palabra debe ir a continuación y es parcialmente eficaz para recordar información. Aunque la tecnología ha mejorado rápidamente, no es perfecta y a menudo es propensa a alucinar con hechos falsos, especialmente si se le interroga sobre temas específicos que pueden no estar presentes en sus datos de entrenamiento.

"La función básica de ChatGPT es predecir la siguiente palabra en una cadena de texto para producir una respuesta esperada basada en la información disponible, independientemente de si dicha respuesta es objetivamente correcta o no. No tiene ninguna comprensión intrínseca de un tema o cuestión. ", explica el periódico.

Trindade nos dijo que es posible que la información relacionada con la gastroenterología en las páginas web utilizadas para entrenar el software no sea precisa y que se deben utilizar los mejores recursos, como revistas médicas o bases de datos. 

Estos recursos, sin embargo, no están fácilmente disponibles y pueden bloquearse detrás de muros de pago. En ese caso, es posible que ChatGPT no haya estado suficientemente expuesto al conocimiento experto.

"Los resultados sólo son aplicables a ChatGPT; es necesario validar otros chatbots. El quid de la cuestión es de dónde obtienen estos chatbots la información. En su forma actual, ChatGPT no debe utilizarse para asesoramiento médico o educación médica", concluyó Trindade. ®

Sello de tiempo:

Mas de El registro