ChatGPT se fraye un chemin à travers le MBA de Wharton, les examens médicaux

Republié par Platon

Suiveurs: 0

Le logiciel de chat d'OpenAI, ChatGPT, s'il était diffusé dans le monde entier, obtiendrait un score compris entre un B et un B- à l'examen de gestion des opérations de la Wharton Business School, et approcherait ou dépasserait le score nécessaire pour réussir l'US Medical Licensing Exam (USMLE).

Bien que cela puisse en dire plus sur la nature statique et centrée sur les documents du matériel de test que sur les prouesses intellectuelles des logiciels, c'est néanmoins un sujet de préoccupation et d'intérêt pour les éducateurs et à peu près tous les autres vivant à l'ère de l'automatisation.

Les universitaires craignent que les systèmes d'assistance comme ChatGPT et GitHub Copilote (basé sur un modèle OpenAI appelé Codex) obligera les enseignants à réévaluer la façon dont ils enseignent et notent les examens, car la technologie d'assistance basée sur l'apprentissage automatique est devenue si performante.

Dans les milieux éducatifs, les conseils sur l'IA deviennent monnaie courante : The Stanford Daily rapporté, "un grand nombre d'étudiants ont déjà utilisé ChatGPT lors de leurs examens finaux." Environ 17 % des étudiants, sur la base d'un sondage anonyme de 4,497 5 répondants, ont déclaré avoir utilisé ChatGPT pour les devoirs et les examens du trimestre d'automne, XNUMX % déclarant avoir soumis du matériel directement à partir de ChatGPT avec peu ou pas d'édition - ce qui est vraisemblablement une violation du code d'honneur.

Par ailleurs, Christian Terwiesch, professeur à la Wharton School de l'Université de Pennsylvanie, et un groupe de chercheurs médicaux principalement affiliés à Ansible Health, ont décidé de mettre ChatGPT, un sans doute conseiller automatisé amoral et factuellement contestée système expert, à l'épreuve.

Terwiesch et les boffins d'Ansible Health ont clairement indiqué que ChatGPT a des limites et se trompe. Dans l'ensemble, ils lui ont donné des notes moyennes, mais ils ont clairement indiqué qu'ils s'attendent à ce que les systèmes d'assistance IA trouvent une place dans l'enseignement et dans d'autres secteurs.

Le modèle a, après tout, été formé sur d'innombrables morceaux d'écriture humaine, et donc sa capacité à deviner une réponse satisfaisante à une question de toutes ces connaissances et factoïdes inhalés n'est pas inattendue.

"Tout d'abord, il fait un travail incroyable sur les questions de gestion des opérations de base et d'analyse des processus, y compris celles qui sont basées sur des études de cas", a déclaré Terwiesch dans son papier. "Non seulement les réponses sont correctes, mais les explications sont excellentes."

Cela dit, il a observé que ChatGPT fait de simples erreurs mathématiques et tâtonne avec des questions d'analyse de processus avancées. Cependant, le modèle d'IA est sensible aux conseils des personnes sur la façon de s'améliorer - il peut se corriger avec succès lorsqu'il reçoit des conseils d'un expert humain.

Les conseils humains ont également servi de source d'entrées malveillantes, comme l'ont démontré Le chatbot Tay de Microsoft et par recherches ultérieures.

Docteur, docteur

Le groupe de recherche médicale qui a écrit «Performances de ChatGPT sur USMLE : Potentiel de formation médicale assistée par l'IA à l'aide de grands modèles de langage» inclut « ChatGPT » en tant que co-auteur.

"ChatGPT a contribué à la rédaction de plusieurs sections de ce manuscrit", déclarent les auteurs biologiques dans leur article.

Les autres affiliations organisationnelles des auteurs incluent : Massachusetts General Hospital, Harvard School of Medicine, à Boston, Mass ; Warren Alpert Medical School, Brown University, à Providence, Rhode Island; et Département de l'éducation médicale à UWorld, LLC, une entreprise d'apprentissage en ligne sur la santé basée à Dallas, au Texas.

Les auteurs - Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo et Victor Tseng - sont arrivés à une conclusion similaire à celle de Wharton's Terwiesch . Plus précisément, ils ont constaté que ChatGPT obtenait des résultats passables - au-dessus du seuil de réussite variable d'environ 60 % - à l'examen USMLE, s'il bénéficiait de réponses indéterminées. Et ils s'attendent à ce que les grands modèles linguistiques (LLM) jouent un rôle croissant dans l'enseignement médical et dans la prise de décision clinique.

"ChatGPT donne une précision modérée approchant les performances de passage sur USMLE", déclarent les auteurs dans leur article. « Les éléments d'examen ont d'abord été encodés sous forme de questions ouvertes avec des invites d'introduction variables. Ce format d'entrée simule un modèle de requête d'utilisateur naturel libre. Avec les réponses indéterminées censurées/incluses, la précision de ChatGPT pour les étapes 1, 2CK et 3 de l'USMLE était de 68.0 %/42.9 %, 58.3 %/51.4 % et 62.4 %/55.7 %, respectivement.

Décrire la performance de ChatGPT comme « s'approchant du dépassement » est une façon généreuse de la formuler, en particulier avec l'IA étant créditée pour les réponses indéterminées. Arriver dans le cabinet d'un médecin et voir un diplôme annoncer une note de D pourrait provoquer un peu plus d'inquiétude chez les patients.

Mais les chercheurs soutiennent que les choses que ChatGPT a bien faites étaient étroitement conformes aux réponses acceptées et que le modèle d'IA s'est remarquablement amélioré, ayant atteint des mois plus tôt un taux de réussite d'environ 36.7 %.

Fait intéressant, ils ont observé que ChatGPT fonctionnait mieux que PubMedGPT, un LLM basé uniquement sur des données biomédicales qui gérait une précision d'environ 50.8% seulement (sur la base de données non publiées).

"Nous supposons que la formation spécifique à un domaine peut avoir créé une plus grande ambivalence dans le modèle PubMedGPT, car il absorbe le texte du monde réel du discours académique en cours qui a tendance à être peu concluant, contradictoire, ou très conservateur ou sans engagement dans sa langue", déclarent les auteurs. .

Essentiellement, le matériel moins scientifique et plus opiniâtre qui est entré dans la formation de ChatGPT, comme les brochures d'explication des maladies destinées aux patients, semble avoir rendu ChatGPT plus opiniâtre.

"Alors que l'IA devient de plus en plus performante, elle deviendra bientôt omniprésente, transformant la médecine clinique dans tous les secteurs de la santé", concluent les auteurs, ajoutant que les cliniciens associés à AnsibleHealth ont utilisé ChatGPT dans leurs flux de travail et ont signalé une réduction de 33% du temps requis pour remplir la documentation et les tâches indirectes de soins aux patients.

Cela explique peut-être la décision de Microsoft pour canaliser des milliards vers OpenAI pour son futur logiciel.

L'utilité de ChatGPT dans un contexte éducatif - malgré le fait qu'il soit souvent erroné - a été soulignée dans un blog récents publié dimanche par Thomas Rid, professeur d'études stratégiques et directeur fondateur de l'Institut Alperovich d'études sur la cybersécurité.

Rid décrit un récent cours de cinq jours sur l'analyse des logiciels malveillants et l'ingénierie inverse dispensé par Juan Andres Guerrero-Saade.

"Cinq jours plus tard, je n'avais plus aucun doute : cette chose va transformer l'enseignement supérieur", a déclaré Rid. « J'étais l'un des étudiants. Et j'ai été époustouflé par ce que l'apprentissage automatique pouvait faire pour nous, en temps réel. Et je dis cela en tant que quelqu'un qui avait été un endurci sceptique du battage médiatique de l'intelligence artificielle depuis de nombreuses années. Notez que je n'ai pas dit transformation "probable". Cela transformera l'enseignement supérieur.

Guerrero-Saadé, en un fil Twitter, reconnaît que ChatGPT s'est trompé, mais insiste sur le fait que l'outil a aidé les étudiants à trouver de meilleures réponses. Il suggère qu'il fonctionne comme un assistant pédagogique personnel pour chaque élève.

"La peur autour de l'IA (ou les attentes démesurées de résultats parfaits) obscurcissent la reconnaissance de cette utilité stupéfiante des LLM : en tant qu'assistant capable de fusionner rapidement des informations (justes ou fausses) avec une extrême pertinence pour une intelligence plus perspicace (l'utilisateur) avec laquelle travailler, ” il a écrit.

Rid soutient que si les préoccupations concernant l'IA en tant que mécanisme de plagiat et de tricherie dans l'éducation doivent être abordées, la conversation la plus importante concerne la manière dont les outils d'IA peuvent améliorer les résultats scolaires. ®