ChatGPT가 미국 위장병학 시험을 통과하지 못했습니다

플라톤에 의해 재발행

팔로워 : 0

ChatGPT는 American College of Gastroenterology 시험을 통과하지 못했고 환자를 위한 정확한 의료 정보를 생성할 수 없다고 의사들은 경고했습니다.

Feinstein Institutes for Medical Research의 의사들이 주도한 연구에서는 OpenAI의 이전 GPT-3.5 모델과 최신 GPT-4 시스템을 기반으로 하는 ChatGPT의 두 가지 변종을 모두 테스트했습니다. 학술팀은 2021년과 2022년 미국 위장병학회(ACG) 자가 평가 시험에서 가져온 객관식 문제를 복사하여 봇에 붙여넣고 소프트웨어의 응답을 분석했습니다.

흥미롭게도 GPT-3.5를 기반으로 하는 덜 발전된 버전은 65.1개의 질문 중 455%를 올바르게 답한 반면 더 강력한 GPT-4는 62.4%를 기록했습니다. OpenAI는 모델을 교육하는 방식에 대해 비밀을 유지하기 때문에 어떻게 이런 일이 발생했는지 설명하기 어렵습니다. 대변인은 적어도 두 모델 모두 2021년 XNUMX월 날짜의 데이터로 훈련되었다고 말했습니다.

어쨌든 두 결과 모두 시험에 합격하기 위한 70% 임계값에 도달할 만큼 좋지 않았습니다.

Arvind Trindade, The Feinstein Institutes for Medical Research의 부교수이자 이 연구의 수석 저자 출판 FBI 증오 범죄 보고서 미국 소화기 내과 학회지, 말 등록.

“점수는 합격이나 70점 획득에 멀지 않지만 의학적 조언이나 의학 교육을 위해서는 95점 이상이 되어야 한다고 생각합니다.”

그는 "자신의 의료 분야에 대해 70%만 아는 의사가 환자에게 편안함을 줄 것이라고 생각하지 않는다. 의사에게 이렇게 높은 기준을 요구한다면 의료 챗봇에도 이렇게 높은 기준을 요구해야 한다"고 덧붙였다.

American College of Gastroenterology는 의사를 양성하고 그 테스트는 공식 시험 연습으로 사용됩니다. 보드 인증 위장병 전문의가 되려면 의사는 American Board of Internal Medicine Gastroenterology 시험에 합격해야 합니다. 직감뿐만 아니라 지식과 연구가 필요합니다.

ChatGPT는 주어진 문장에서 다음 단어를 예측하여 응답을 생성합니다. AI는 훈련 데이터에서 일반적인 패턴을 학습하여 다음에 어떤 단어가 나와야 하는지 파악하고 정보를 회상하는 데 부분적으로 효과적입니다. 기술이 빠르게 향상되었지만 완벽하지 않으며 종종 잘못된 사실을 환각하는 경향이 있습니다. 특히 훈련 데이터에 없을 수 있는 틈새 주제에 대해 퀴즈를 내는 경우에는 더욱 그렇습니다.

"ChatGPT의 기본 기능은 해당 응답이 실제로 올바른지 여부에 관계없이 사용 가능한 정보를 기반으로 예상되는 응답을 생성하기 위해 텍스트 문자열의 다음 단어를 예측하는 것입니다. 주제나 문제에 대한 본질적인 이해가 없습니다. "라고 논문은 설명합니다.

Trindade는 소프트웨어를 훈련하는 데 사용되는 웹페이지의 위장병학 관련 정보가 정확하지 않을 수 있으며 의학 저널이나 데이터베이스와 같은 최고의 리소스를 사용해야 한다고 말했습니다.

그러나 이러한 리소스는 쉽게 사용할 수 없으며 페이월 뒤에 잠겨 있을 수 있습니다. 이 경우 ChatGPT가 전문 지식에 충분히 노출되지 않았을 수 있습니다.

"결과는 ChatGPT에만 적용 가능합니다. 다른 챗봇은 검증이 필요합니다. 문제의 핵심은 이러한 챗봇이 정보를 얻는 위치입니다. 현재 형태의 ChatGPT는 의학적 조언이나 의학 교육에 사용되어서는 안 됩니다."라고 Trindade는 결론지었습니다. ®