ChatGPT는 Wharton MBA, 의료 시험을 통해 자신의 길을 이야기합니다

플라톤에 의해 재발행

팔로워 : 0

OpenAI의 채팅 소프트웨어인 ChatGPT를 세상에 공개하면 Wharton 비즈니스 스쿨의 운영 관리 시험에서 B와 B 사이의 점수를 받을 수 있으며 USMLE(US Medical Licensing Exam)를 통과하는 데 필요한 점수에 근접하거나 초과할 것입니다.

이것은 소프트웨어의 지적 능력보다 테스트 자료의 정적이고 문서 중심적인 특성에 대해 더 많이 말할 수 있지만 그럼에도 불구하고 교육자와 자동화 시대에 살고 있는 거의 모든 사람들의 관심과 관심사입니다.

학자들은 다음과 같은 보조 시스템이 ChatGPT 그리고 GitHub의 부조종사 (Codex라는 OpenAI 모델 기반)은 기계 학습에 기반한 보조 기술이 매우 유능해졌기 때문에 교사가 어떻게 가르치고 시험을 채점하는지 재평가해야 합니다.

교육 환경에서 AI 조언이 보편화되고 있습니다. 스탠포드 데일리는 신고, “많은 수의 학생들이 기말고사에서 이미 ChatGPT를 사용했습니다.” 17명의 응답자를 대상으로 한 익명 설문조사에 따르면 약 4,497%의 학생이 ChatGPT를 사용하여 가을 학기 과제 및 시험을 지원했다고 답했으며, 5%는 거의 또는 전혀 수정하지 않고 ChatGPT에서 직접 자료를 제출했다고 말했습니다. 명예 규정 위반.

이와는 별도로 펜실베니아 대학교 와튼 스쿨의 교수인 Christian Terwiesch와 주로 Ansible Health와 관련된 의료 연구원 그룹은 ChatGPT를 틀림없이 비도덕적 자동 고문 및 사실에 도전하다 전문가 시스템을 테스트합니다.

Terwiesch와 Ansible Health boffin은 모두 ChatGPT에 한계가 있고 문제가 있음을 분명히 했습니다. 전반적으로 그들은 중간 점수를 주었지만 AI 보조 시스템이 교육 및 기타 부문에서 자리를 찾을 것으로 기대한다는 점을 분명히 했습니다.

결국 이 모델은 인간이 만든 수많은 글에 대해 훈련을 받았기 때문에 흡입한 지식과 사실로부터 질문에 대한 만족스러운 답변을 추측하는 능력은 예상치 못한 것이 아닙니다.

"첫째, 사례 연구를 기반으로 하는 질문을 포함하여 기본 운영 관리 및 프로세스 분석 질문에서 놀라운 작업을 수행합니다."라고 Terwiesch는 말했습니다. 그의 논문. "답이 정확할 뿐만 아니라 설명도 훌륭합니다."

즉, 그는 ChatGPT가 간단한 수학 실수를 하고 고급 프로세스 분석 질문을 더듬는 것을 관찰했습니다. 그러나 AI 모델은 개선 방법에 대한 사람들의 힌트에 반응합니다. 인간 전문가의 힌트를 받으면 성공적으로 수정할 수 있습니다.

인간의 안내는 또한 다음과 같이 악의적인 입력의 소스 역할을 했습니다. 마이크로소프트의 테이 챗봇 과 별 후속 연구.

의사, 의사

"라고 쓴 의학 연구 그룹USMLE에서 ChatGPT의 성능: 대규모 언어 모델을 사용한 AI 지원 의학 교육의 잠재력”에는 “ChatGPT”가 공동 저자로 포함되어 있습니다.

"ChatGPT는 이 원고의 여러 섹션을 작성하는 데 기여했습니다."라고 생물학 저자는 논문에서 밝혔습니다.

저자의 다른 조직 소속은 다음과 같습니다. 매사추세츠주 보스턴에 있는 하버드 의과대학 매사추세츠 종합병원; 로드아일랜드 주 프로비던스에 있는 브라운 대학교 워렌 알퍼트 의과대학; 텍사스 달라스에 본사를 둔 건강 e-러닝 회사인 UWorld, LLC의 의학 교육부.

저자인 Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo, Victor Tseng은 Wharton의 Terwiesch와 유사한 결론에 도달했습니다. . 구체적으로 그들은 불확실한 답변의 이점이 주어진 경우 ChatGPT가 USMLE 시험에서 약 60%의 가변 합격 임계값 이상으로 무난하게 수행되었음을 발견했습니다. 그리고 그들은 대규모 언어 모델(LLM)이 의학 교육 및 임상 의사 결정에서 점점 더 많은 역할을 할 것으로 기대합니다.

"ChatGPT는 USMLE에서 통과 성능에 근접한 중간 정도의 정확도를 제공합니다."라고 저자는 논문에서 밝혔습니다. “시험 항목은 처음에 가변 도입 프롬프트가 있는 개방형 질문으로 인코딩되었습니다. 이 입력 형식은 무료 자연 사용자 쿼리 패턴을 시뮬레이션합니다. 불확실한 응답이 검열/포함된 상태에서 USMLE 1단계, 2CK 및 3단계의 ChatGPT 정확도는 각각 68.0%/42.9%, 58.3%/51.4% 및 62.4%/55.7%였습니다.”

ChatGPT의 성능을 "접근 통과"라고 표현하는 것은 관대하게 표현하는 방법입니다. 특히 AI가 불확실한 답변에 대한 공로를 인정받고 있기 때문입니다. 의사 진료실에 도착하여 D 등급을 광고하는 졸업장을 보면 환자들 사이에서 조금 더 걱정할 수 있습니다.

그러나 연구원들은 ChatGPT가 정답을 맞힌 것이 수용된 답변과 밀접하게 일치했으며 AI 모델이 몇 달 전보다 약 36.7%의 성공률을 달성하면서 현저하게 개선되었다고 주장합니다.

흥미롭게도 그들은 ChatGPT가 약 50.8%의 정확도(미공개 데이터 기준)만 관리하는 생의학 데이터만을 기반으로 하는 LLM인 PubMedGPT보다 더 나은 성능을 보였다는 것을 관찰했습니다.

"우리는 특정 영역별 교육이 PubMedGPT 모델에서 더 큰 양가성을 만들었을 수 있다고 추측합니다. 왜냐하면 PubMedGPT 모델은 결정적이지 않거나, 모순되거나, 언어가 매우 보수적이거나 헌신적이지 않은 경향이 있는 진행 중인 학술 담론에서 실제 텍스트를 흡수하기 때문입니다."라고 저자는 말합니다. .

본질적으로, 환자 대면 질병 설명 팜플렛과 같이 ChatGPT 교육에 포함된 덜 과학적이고 더 독단적인 자료는 ChatGPT를 더 독단적으로 만든 것으로 보입니다.

저자는 "AI가 점점 더 능숙해짐에 따라 곧 유비쿼터스화되어 모든 의료 분야에서 임상 의학을 변화시킬 것입니다. 문서화 및 간접 환자 치료 작업을 완료하는 데 필요합니다.

이것은 아마도 Microsoft의 결정을 설명합니다 수십억을 OpenAI로 유입 미래의 소프트웨어를 위해.

종종 잘못된 사실에도 불구하고 교육 환경에서 ChatGPT의 유용성은 다음과 같이 강조되었습니다. 블로그 게시물 전략 연구 교수이자 Alperovich Institute for Cybersecurity Studies의 창립 이사인 Thomas Rid가 일요일에 발표했습니다.

Rid는 Juan Andres Guerrero-Saade가 가르친 최근 XNUMX일간의 맬웨어 분석 및 리버스 엔지니어링 과정에 대해 설명합니다.

Rid는 "XNUMX일 후 더 이상 의심하지 않았습니다. 이것이 고등 교육을 변화시킬 것입니다."라고 말했습니다. “저는 학생 중 한 명이었습니다. 그리고 기계 학습이 우리를 위해 실시간으로 무엇을 할 수 있는지 보고 깜짝 놀랐습니다. 그리고 저는 이것을 완고한 사람으로서 말합니다. 회의론자 수년 동안 인공 지능 과대 광고. 내가 '가능성이 있는' 변환을 말하지 않았다는 점에 유의하십시오. 그것은 고등 교육을 변화시킬 것입니다.”

게레로-사데 트위터 스레드, ChatGPT가 잘못된 점을 인정하지만 이 도구가 학생들이 더 나은 답을 찾는 데 도움이 되었다고 주장합니다. 그는 그것이 각 학생을 위한 개인 조교와 같은 기능을 한다고 제안합니다.

"AI(또는 완벽한 출력에 대한 과도한 기대)에 대한 두려움은 이 LLM의 놀라운 유틸리티에 대한 인식을 흐리게 합니다. 더 분별력 있는 지능(사용자)이 작업할 수 있도록 매우 관련성이 높은 정보(옳거나 그름)를 신속하게 통합할 수 있는 조수로서, ” 그가 쓴.

Rid는 교육에서 표절 및 부정 행위의 메커니즘으로서 AI에 대한 우려를 해결해야 하지만 더 중요한 대화는 AI 도구가 교육 결과를 개선할 수 있는 방법과 관련이 있다고 주장합니다. ®