ChatGPT พูดคุยผ่านทาง Wharton MBA การสอบทางการแพทย์

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ChatGPT ซอฟต์แวร์แชทของ OpenAI หากปล่อยไว้บนโลก จะทำคะแนนระหว่าง B และ B- ในการสอบ Operations Management ของโรงเรียนธุรกิจ Wharton และจะเข้าใกล้หรือเกินคะแนนที่จำเป็นในการผ่านการสอบใบอนุญาตทางการแพทย์ของสหรัฐอเมริกา (USMLE)

แม้ว่าสิ่งนี้อาจพูดถึงเนื้อหาการทดสอบแบบคงที่และยึดเอกสารเป็นศูนย์กลางมากกว่าความสามารถทางปัญญาของซอฟต์แวร์ แต่กระนั้นก็ตามประเด็นที่นักการศึกษากังวลและให้ความสนใจ รวมถึงคนอื่นๆ ที่อาศัยอยู่ในยุคของระบบอัตโนมัติ

นักวิชาการกังวลว่าระบบช่วยเหลือเช่นนี้ ChatGPT และ GitHub's Copilot (อิงจากโมเดล OpenAI ที่เรียกว่า Codex) ครูจะต้องประเมินวิธีการสอนและให้คะแนนข้อสอบอีกครั้ง เนื่องจากเทคโนโลยีช่วยเหลือโดยอาศัยแมชชีนเลิร์นนิงมีความสามารถมาก

ในสภาพแวดล้อมทางการศึกษา คำแนะนำเกี่ยวกับ AI กลายเป็นเรื่องธรรมดา The Stanford Daily just รายงาน, “นักเรียนจำนวนมากใช้ ChatGPT ในการสอบปลายภาคแล้ว” ประมาณ 17 เปอร์เซ็นต์ของนักเรียนจากแบบสำรวจที่ไม่ระบุตัวตนของผู้ตอบแบบสอบถาม 4,497 คนกล่าวว่าพวกเขาใช้ ChatGPT เพื่อช่วยในการมอบหมายงานและการสอบในไตรมาสฤดูใบไม้ร่วง โดย 5 เปอร์เซ็นต์กล่าวว่าพวกเขาส่งเนื้อหาโดยตรงจาก ChatGPT โดยมีการแก้ไขเพียงเล็กน้อยหรือไม่มีเลย ซึ่งสันนิษฐานได้ว่า การละเมิดรหัสเกียรติ

นอกจากนี้ Christian Terwiesch ศาสตราจารย์แห่ง Wharton School of the University of Pennsylvania และกลุ่มนักวิจัยทางการแพทย์ส่วนใหญ่สังกัด Ansible Health ตัดสินใจใส่ ChatGPT เนื้อหา ที่ปรึกษาอัตโนมัติทางศีลธรรมและ ท้าทายข้อเท็จจริง ระบบผู้เชี่ยวชาญในการทดสอบ

ทั้ง Terwiesch และ Ansible Health ระบุชัดเจนว่า ChatGPT มีข้อจำกัดและทำผิดพลาด โดยรวมแล้วพวกเขาให้คะแนนกลางๆ แต่ชัดเจนว่าพวกเขาคาดหวังว่าระบบช่วยเหลือ AI จะหาสถานที่ในการสอนและในภาคส่วนอื่นๆ ได้

ท้ายที่สุด แบบจำลองนี้ได้รับการฝึกฝนเกี่ยวกับงานเขียนที่มนุษย์สร้างขึ้นจำนวนนับไม่ถ้วน ดังนั้นความสามารถในการคาดเดาคำตอบที่น่าพอใจสำหรับคำถามจากความรู้และข้อเท็จจริงที่สูดดมเข้าไปจึงไม่ใช่เรื่องที่คาดไม่ถึง

“ประการแรก มันทำงานได้อย่างยอดเยี่ยมสำหรับคำถามการจัดการการดำเนินงานขั้นพื้นฐานและการวิเคราะห์กระบวนการ รวมถึงคำถามที่อิงจากกรณีศึกษา” Terwiesch กล่าวใน กระดาษของเขา. “ไม่เพียงแต่คำตอบที่ถูกต้องเท่านั้น แต่คำอธิบายยังยอดเยี่ยมอีกด้วย”

อย่างไรก็ตาม เขาสังเกตเห็นว่า ChatGPT ทำข้อผิดพลาดทางคณิตศาสตร์ง่ายๆ และคลำหาคำถามการวิเคราะห์กระบวนการขั้นสูง อย่างไรก็ตาม โมเดล AI ตอบสนองต่อคำแนะนำจากผู้คนเกี่ยวกับวิธีการปรับปรุง โดยสามารถแก้ไขตัวเองได้สำเร็จเมื่อได้รับคำแนะนำจากผู้เชี่ยวชาญที่เป็นมนุษย์

คำแนะนำจากมนุษย์ยังทำหน้าที่เป็นแหล่งที่มาของการป้อนข้อมูลที่เป็นอันตรายดังที่แสดงโดย แชทบอท Tay ของ Microsoft และโดย การวิจัยที่ตามมา.

หมอหมอ

กลุ่มวิจัยทางการแพทย์ที่เขียนว่า “ประสิทธิภาพของ ChatGPT บน USMLE: ศักยภาพสำหรับการศึกษาทางการแพทย์โดยใช้ AI โดยใช้โมเดลภาษาขนาดใหญ่” รวมถึง “ChatGPT” ในฐานะผู้เขียนร่วม

“ChatGPT มีส่วนร่วมในการเขียนหลายส่วนของต้นฉบับนี้” ผู้เขียนทางชีววิทยาระบุในเอกสารของพวกเขา

ความร่วมมือในองค์กรอื่น ๆ ของผู้เขียน ได้แก่ Massachusetts General Hospital, Harvard School of Medicine ในบอสตัน รัฐแมสซาชูเซตส์; Warren Alpert Medical School, Brown University ในพรอวิเดนซ์ โรดไอส์แลนด์; และ Department of Medical Education ที่ UWorld, LLC ซึ่งเป็นบริษัทอีเลิร์นนิงด้านสุขภาพในเมืองดัลลัส รัฐเท็กซัส

ผู้เขียน – Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo และ Victor Tseng – ได้ข้อสรุปที่คล้ายกันกับ Terwiesch ของ Wharton . โดยเฉพาะอย่างยิ่ง พวกเขาพบว่า ChatGPT ทำงานได้ดี – เหนือเกณฑ์การส่งผ่านตัวแปรประมาณ 60 เปอร์เซ็นต์ – ในการสอบ USMLE หากได้รับประโยชน์จากคำตอบที่ไม่แน่นอน และพวกเขาคาดหวังว่าโมเดลภาษาขนาดใหญ่ (LLMs) จะมีบทบาทเพิ่มขึ้นในการศึกษาทางการแพทย์และในการตัดสินใจทางคลินิก

“ChatGPT ให้ความแม่นยำในระดับปานกลางเมื่อเข้าใกล้ประสิทธิภาพการส่งผ่านบน USMLE” ผู้เขียนระบุในรายงานของพวกเขา “รายการข้อสอบถูกเข้ารหัสเป็นครั้งแรกเป็นคำถามปลายเปิดพร้อมพรอมต์นำหน้าแบบแปรผัน รูปแบบการป้อนข้อมูลนี้จำลองรูปแบบข้อความค้นหาของผู้ใช้ทั่วไปที่ไม่เสียค่าใช้จ่าย ด้วยการเซ็นเซอร์/รวมการตอบสนองที่ไม่แน่นอน ความแม่นยำของ ChatGPT สำหรับ USMLE Steps 1, 2CK และ 3 คือ 68.0 เปอร์เซ็นต์/42.9 เปอร์เซ็นต์, 58.3 เปอร์เซ็นต์/51.4 เปอร์เซ็นต์ และ 62.4 เปอร์เซ็นต์/55.7 เปอร์เซ็นต์ ตามลำดับ”

การอธิบายประสิทธิภาพของ ChatGPT ว่า "ใกล้จะผ่าน" เป็นวิธีที่เอื้อเฟื้อเผื่อแผ่ โดยเฉพาะอย่างยิ่งเมื่อ AI ได้รับเครดิตสำหรับคำตอบที่ไม่แน่นอน การไปถึงสำนักงานแพทย์และเห็นประกาศนียบัตรโฆษณาเกรด D อาจกระตุ้นให้ผู้ป่วยเกิดความกังวลขึ้นอีกเล็กน้อย

แต่นักวิจัยยืนยันว่าสิ่งที่ ChatGPT ทำถูกต้องสอดคล้องอย่างใกล้ชิดกับคำตอบที่ยอมรับ และโมเดล AI ก็พัฒนาขึ้นอย่างน่าทึ่ง โดยในเดือนก่อนหน้านี้มีอัตราความสำเร็จเพียง 36.7 เปอร์เซ็นต์เท่านั้น

ที่น่าสนใจคือ พวกเขาสังเกตเห็นว่า ChatGPT ทำงานได้ดีกว่า PubMedGPT ซึ่งเป็น LLM ที่อิงตามข้อมูลชีวการแพทย์เพียงอย่างเดียว ซึ่งจัดการความแม่นยำได้เพียงประมาณ 50.8 เปอร์เซ็นต์ (อิงตามข้อมูลที่ไม่ได้เผยแพร่)

“เราคาดเดาว่าการฝึกอบรมเฉพาะโดเมนอาจสร้างความสับสนมากขึ้นในโมเดล PubMedGPT เนื่องจากมันดูดซับข้อความในโลกแห่งความจริงจากวาทกรรมทางวิชาการที่กำลังดำเนินอยู่ ซึ่งมีแนวโน้มว่าจะสรุปไม่ได้ ขัดแย้ง หรืออนุรักษ์นิยมสูงหรือไม่ผูกมัดในภาษาของมัน” ผู้เขียนระบุ .

โดยพื้นฐานแล้ว เนื้อหาที่เป็นวิทยาศาสตร์น้อยกว่าและมีความคิดเห็นมากกว่าที่เข้าร่วมการฝึกอบรมของ ChatGPT เช่น แผ่นพับคำอธิบายเกี่ยวกับโรคของผู้ป่วย ดูเหมือนจะทำให้ ChatGPT มีความคิดเห็นมากขึ้น

“ในขณะที่ AI มีความเชี่ยวชาญมากขึ้นเรื่อยๆ ในไม่ช้า มันจะกลายเป็นที่แพร่หลาย และเปลี่ยนการแพทย์ทางคลินิกในภาคการดูแลสุขภาพทั้งหมด” ผู้เขียนสรุป และเสริมว่าแพทย์ที่เกี่ยวข้องกับ AnsibleHealth ได้ใช้ ChatGPT ในเวิร์กโฟลว์ของพวกเขา และได้รายงานว่าเวลาลดลง 33 เปอร์เซ็นต์ จำเป็นต้องกรอกเอกสารและงานดูแลผู้ป่วยทางอ้อม

นี่อาจอธิบายการตัดสินใจของ Microsoft เพื่อนำเงินหลายพันล้านเข้าสู่ OpenAI สำหรับซอฟต์แวร์ในอนาคต

ยูทิลิตี้ของ ChatGPT ในการศึกษา - แม้จะผิดพลาดบ่อยครั้ง - ถูกขีดเส้นใต้ใน โพสต์บล็อก เผยแพร่เมื่อวันอาทิตย์โดย Thomas Rid ศาสตราจารย์ด้านการศึกษาเชิงกลยุทธ์และผู้อำนวยการผู้ก่อตั้ง Alperovich Institute for Cybersecurity Studies

Rid อธิบายถึงหลักสูตรการวิเคราะห์มัลแวร์และวิศวกรรมย้อนกลับ XNUMX วันล่าสุดที่สอนโดย Juan Andres Guerrero-Saade

“ห้าวันต่อมา ฉันไม่สงสัยอีกต่อไปว่า สิ่งนี้จะพลิกโฉมการศึกษาระดับอุดมศึกษา” ริดกล่าว “ฉันเป็นนักเรียนคนหนึ่ง และฉันรู้สึกทึ่งกับสิ่งที่แมชชีนเลิร์นนิงสามารถทำให้เราได้แบบเรียลไทม์ และฉันพูดอย่างนี้ในฐานะคนที่เคยแข็งกระด้าง ขี้ระแวง ของปัญญาประดิษฐ์เป็นเวลาหลายปี โปรดทราบว่าฉันไม่ได้พูดว่า 'น่าจะ' เปลี่ยนรูป มันจะเปลี่ยนการศึกษาระดับอุดมศึกษา”

เกร์เรโร-ซาเอเด หัวข้อ Twitterยอมรับว่า ChatGPT มีข้อผิดพลาด แต่ยืนยันว่าเครื่องมือนี้ช่วยให้นักเรียนได้คำตอบที่ดีขึ้น เขาแนะนำว่ามันทำหน้าที่เป็นผู้ช่วยสอนส่วนตัวสำหรับนักเรียนแต่ละคน

“การให้ความสำคัญกับ AI (หรือความคาดหวังที่มากเกินไปของผลลัพธ์ที่สมบูรณ์แบบ) ทำให้การรับรู้ของ LLMs นั้นน่าทึ่ง: ในฐานะผู้ช่วยที่สามารถรวบรวมข้อมูลได้อย่างรวดเร็ว (ถูกหรือผิด) ด้วยความเกี่ยวข้องอย่างยิ่งสำหรับหน่วยสืบราชการลับที่ชาญฉลาด (ผู้ใช้) ในการทำงานด้วย ” เขาเขียน.

Rid ให้เหตุผลว่าในขณะที่ความกังวลเกี่ยวกับ AI เป็นกลไกในการคัดลอกผลงานและการโกงการศึกษาจำเป็นต้องได้รับการแก้ไข การสนทนาที่สำคัญกว่านั้นเกี่ยวข้องกับวิธีที่เครื่องมือ AI สามารถปรับปรุงผลการศึกษา ®

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
ที่มา: https://go.theregister.com/feed/www.theregister.com/2023/01/24/chatgpt_exam_study/

ประทับเวลา: January 23, 2023