ChatGPT 畅谈沃顿商学院 MBA、医学考试

由柏拉图重新发布

关注： 0

OpenAI 的聊天软件 ChatGPT，如果公开发布，在沃顿商学院的运营管理考试中将获得 B 和 B- 之间的分数，并且将接近或超过通过美国医学执照考试 (USMLE) 所需的分数。

虽然这可能更多地说明了测试材料的静态、以文档为中心的性质，而不是软件的智力实力，但它仍然是教育工作者以及生活在自动化时代的几乎所有人都关心和感兴趣的问题。

学术界一直担心辅助系统像 ChatGPT 和 GitHub 的副驾驶（基于名为 Codex 的 OpenAI 模型）将要求教师重新评估他们的教学和考试评分方式，因为基于机器学习的辅助技术已经变得如此强大。

在教育环境中，人工智能建议正变得司空见惯：《斯坦福日报》刚刚报道，“大量学生已经在期末考试中使用过 ChatGPT。” 根据对 17 名受访者的匿名调查，估计有 4,497% 的学生表示他们曾使用 ChatGPT 协助完成秋季学期的作业和考试，其中 5% 的学生表示他们直接从 ChatGPT 提交了材料，几乎没有或没有编辑——这大概是违反荣誉守则

另外，宾夕法尼亚大学沃顿商学院教授 Christian Terwiesch 和一群主要隶属于 Ansible Health 的医学研究人员决定将 ChatGPT，可以说不道德的自动顾问和事实受到质疑专家系统，来测试。

Terwiesch 和 Ansible Health 的研究人员都明确表示 ChatGPT 存在局限性并且会出错。总的来说，他们给它打了中等分，但他们明确表示，他们希望人工智能辅助系统能在教学和其他领域找到一席之地。

毕竟，该模型已经在无数人造作品上接受过训练，因此它能够从所有吸入的知识和事实中猜测出一个问题的满意答案并不令人意外。

“首先，它在基本运营管理和流程分析问题（包括那些基于案例研究的问题）方面做得非常出色，”Terwiesch 在他的论文. “不仅答案正确，而且解释非常出色。”

也就是说，他观察到 ChatGPT 会犯简单的数学错误，并且会在高级过程分析问题上失手。然而，AI 模型会响应人们关于如何改进的提示——当人类专家给出提示时，它可以成功地自我纠正。

人工指导也成为恶意输入的来源，如微软的 Tay 聊天机器人并通过后续研究.

医生，医生

写下“ChatGPT 在 USMLE 上的表现：使用大型语言模型进行 AI 辅助医学教育的潜力”包括作为共同作者的“ChatGPT”。

“ChatGPT 为这份手稿的几个部分的写作做出了贡献，”生物学作者在他们的论文中说。

作者的其他组织隶属关系包括：马萨诸塞州总医院、哈佛医学院，位于马萨诸塞州波士顿；布朗大学沃伦阿尔珀特医学院，罗得岛州普罗维登斯； UWorld, LLC 的医学教育部，这是一家位于德克萨斯州达拉斯的健康电子学习公司。

作者——Tiffany Kung、Morgan Cheatham、ChatGPT、Arielle Medenilla、Czarina Sillos、Lorie De Leon、Camille Elepaño、Maria Madriaga、Rimel Aggabao、Giezel Diaz-Candido、James Maningo 和 Victor Tseng——得出了与沃顿商学院 Terwiesch 相似的结论. 具体来说，他们发现 ChatGPT 在 USMLE 考试中的表现尚可——高于约 60% 的可变通过阈值——如果给出不确定答案的好处。他们预计大型语言模型 (LLM) 将在医学教育和临床决策制定中发挥越来越大的作用。

“ChatGPT 产生的准确度适中，接近通过 USMLE 的表现，”作者在他们的论文中说。 “考试项目首先被编码为带有可变导入提示的开放式问题。这种输入格式模拟了一种自由的自然用户查询模式。在审查/包含不确定回答的情况下，USMLE 步骤 1、2CK 和 3 的 ChatGPT 准确性分别为 68.0%/42.9%、58.3%/51.4% 和 62.4%/55.7%。”

将 ChatGPT 的性能描述为“接近通过”是一种慷慨的措辞方式，尤其是在人工智能因不确定的答案而受到赞扬的情况下。到达医生办公室并看到标有 D 级的文凭可能会引起患者的更多关注。

但研究人员坚持认为，ChatGPT 做对的事情与公认的答案非常吻合，而且人工智能模型有了显着改进，几个月前的成功率仅为 36.7% 左右。

有趣的是，他们观察到 ChatGPT 比 PubMedGPT 表现更好，PubMedGPT 是一种完全基于生物医学数据的 LLM，其管理的准确性仅为 50.8%（基于未发表的数据）。

“我们推测，特定领域的培训可能在 PubMedGPT 模型中产生了更大的矛盾心理，因为它从正在进行的学术讨论中吸收了真实世界的文本，这些文本在其语言中往往是不确定的、矛盾的、高度保守的或不置可否的，”作者说.

从本质上讲，ChatGPT 培训中使用的科学性较低、自以为是的材料（如面向患者的疾病解释手册）似乎使 ChatGPT 更加自以为是。

“随着人工智能变得越来越熟练，它很快就会变得无处不在，从而改变所有医疗保健部门的临床医学，”作者总结道，并补充说，与 AnsibleHealth 相关的临床医生一直在他们的工作流程中使用 ChatGPT，并报告说时间减少了 33%需要完成文档和间接患者护理任务。

这或许可以解释微软的决定向 OpenAI 注入数十亿美元用于其未来的软件。

ChatGPT 在教育环境中的实用性——尽管它经常是错误的——在一个博客文章周日，战略研究教授、Alperovich 网络安全研究所创始人托马斯·里德 (Thomas Rid) 发表了这篇文章。

Rid 描述了最近由 Juan Andres Guerrero-Saade 教授的为期五天的恶意软件分析和逆向工程课程。

“五天后，我不再怀疑：这件事将改变高等教育，”里德说。 “我是学生之一。我对机器学习能够实时为我们做的事情感到震惊。我说这话是作为一个已经变硬的人怀疑论者人工智能炒作多年。请注意，我没有说“可能”转换。它将改变高等教育。”

格雷罗-萨德，在一个Twitter线程，承认 ChatGPT 出了问题，但坚称该工具帮助学生提出了更好的答案。他建议它的功能就像每个学生的个人助教。

“围绕人工智能（或对完美输出的过高期望）的恐惧笼罩了人们对这个法学硕士惊人效用的认识：作为一个助手，能够快速合并信息（正确或错误）与更敏锐的智能（用户）一起工作， ” 他写道：.