ChatGPT 无法通过美国胃肠病学考试

ChatGPT 无法通过美国胃肠病学考试

源节点: 2682739

医生警告称,ChatGPT 未能通过美国胃肠病学会考试,无法为患者生成准确的医疗信息。

由范斯坦医学研究所的医生领导的一项研究测试了 ChatGPT 的两种变体——由 OpenAI 的旧版 GPT-3.5 模型和最新的 GPT-4 系统提供支持。 学术团队将 2021 年和 2022 年美国胃肠病学会 (ACG) 自评测试中的多项选择题复制并粘贴到机器人中,并分析了软件的回答。

有趣的是,基于 GPT-3.5 的不太先进的版本正确回答了 65.1 个问题中的 455%,而更强大的 GPT-4 得分为 62.4%。 这是如何发生的很难解释,因为 OpenAI 对它训练模型的方式保密。 它的发言人告诉我们,至少,这两种模型都接受了最近 2021 年 XNUMX 月的数据训练。

无论如何,这两个结果都不足以达到通过考试的 70% 门槛。

Arvind Trindade,范斯坦医学研究所副教授,该研究的资深作者 出版 ,在 美国胃肠病学杂志告诉 注册.

“虽然分数离及格或达到70分不远了,但我认为,对于医疗咨询或医学教育来说,分数应该在95分以上。”

“我认为患者不会对只了解 70% 医疗领域的医生感到满意。如果我们对医生要求这么高的标准,我们也应该对医疗聊天机器人要求这么高的标准,”他补充道。

美国胃肠病学会培训医生,其考试被用作官方考试的练习。 要成为委员会认证的胃肠病学家,医生需要通过美国内科委员会胃肠病学考试。 这需要知识和学习——而不仅仅是直觉。

ChatGPT 通过预测给定句子中的下一个单词来生成响应。 人工智能通过学习训练数据中的常见模式来找出接下来应该出现的单词,并且在回忆信息方面具有部分效果。 尽管这项技术进步很快,但它并不完美,而且常常容易产生虚假事实的幻觉——尤其是在训练数据中可能不存在的小众主题上进行测验时。

“ChatGPT 的基本功能是预测文本字符串中的下一个单词,以根据可用信息产生预期的响应,无论这种响应实际上是否正确。它对主题或问题没有任何内在的理解, ”该报解释说。

Trindade 告诉我们,用于训练软件的网页上的胃肠病学相关信息可能不准确,应该使用医学期刊或数据库等最佳资源。 

然而,这些资源并不容易获得,并且可能被锁定在付费专区后面。 在那种情况下,ChatGPT 可能没有充分接触到专家知识。

“结果仅适用于 ChatGPT - 其他聊天机器人需要进行验证。问题的关键在于这些聊天机器人从哪里获取信息。以目前的形式,ChatGPT 不应用于医疗建议或医学教育,”Trindade 总结道。 ®

时间戳记:

更多来自 注册