لم يتمكن ChatGPT من اجتياز اختبارات أمراض الجهاز الهضمي الأمريكية

لم يتمكن ChatGPT من اجتياز اختبارات أمراض الجهاز الهضمي الأمريكية

عقدة المصدر: 2682739

حذر الأطباء من أن ChatGPT فشلت في اجتياز امتحانات الكلية الأمريكية لأمراض الجهاز الهضمي وغير قادرة على توليد معلومات طبية دقيقة للمرضى.

اختبرت دراسة أجراها أطباء في معاهد فينشتاين للأبحاث الطبية كلا النوعين من ChatGPT - المدعوم بنموذج GPT-3.5 الأقدم من OpenAI وأحدث نظام GPT-4. قام الفريق الأكاديمي بنسخ ولصق أسئلة الاختيار من متعدد المأخوذة من اختبارات التقييم الذاتي للكلية الأمريكية لأمراض الجهاز الهضمي (ACG) لعامي 2021 و2022 في الروبوت، وقام بتحليل استجابات البرنامج.

ومن المثير للاهتمام ، أن الإصدار الأقل تقدمًا المستند إلى GPT-3.5 أجاب على 65.1٪ من 455 سؤالًا بشكل صحيح بينما سجل GPT-4 الأقوى 62.4٪. من الصعب شرح كيف حدث ذلك لأن شركة OpenAI تتكتم على الطريقة التي تدرب بها نماذجها. أخبرنا المتحدثون باسمها ، على الأقل ، أن كلا النموذجين تم تدريبهما على بيانات مؤرخة في سبتمبر 2021.

على أي حال ، لم تكن أي من النتيجتين جيدة بما يكفي للوصول إلى عتبة 70 في المائة لاجتياز الاختبارات.

آرفيند ترينداد ، أستاذ مشارك في معاهد فاينشتاين للأبحاث الطبية وكبير مؤلفي الدراسة نشرت في ال المجلة الأمريكية لأمراض الجهاز الهضميوقال السجل.

"على الرغم من أن النتيجة ليست بعيدة عن النجاح أو الحصول على 70 بالمائة، إلا أنني أزعم أنه بالنسبة للاستشارة الطبية أو التعليم الطبي، يجب أن تكون النتيجة أكثر من 95".

وأضاف: "لا أعتقد أن المريض سيكون مرتاحًا مع طبيب لا يعرف سوى 70% من مجاله الطبي. إذا طالبنا بهذا المستوى العالي من أطبائنا، فيجب علينا أن نطالب بهذا المستوى العالي من روبوتات الدردشة الطبية".

تقوم الكلية الأمريكية لأمراض الجهاز الهضمي بتدريب الأطباء ، وتُستخدم اختباراتها كممارسة للامتحانات الرسمية. لتصبح طبيبة أمراض الجهاز الهضمي حاصلة على شهادة البورد ، يحتاج الأطباء إلى اجتياز امتحان البورد الأمريكي للطب الباطني في أمراض الجهاز الهضمي. يتطلب ذلك معرفة ودراسة - وليس فقط الشعور الغريزي.

يقوم ChatGPT بإنشاء استجابات من خلال التنبؤ بالكلمة التالية في جملة معينة. يتعلم الذكاء الاصطناعي الأنماط الشائعة في بيانات التدريب الخاصة به لمعرفة الكلمة التي يجب أن تكون بعد ذلك، وهو فعال جزئيًا في تذكر المعلومات. على الرغم من أن التكنولوجيا قد تحسنت بسرعة، إلا أنها ليست مثالية وغالبًا ما تكون عرضة لهلوسة الحقائق الكاذبة - خاصة إذا تم اختبارها في موضوعات متخصصة قد لا تكون موجودة في بيانات التدريب الخاصة بها.

"الوظيفة الأساسية لـ ChatGPT هي التنبؤ بالكلمة التالية في سلسلة نصية لإنتاج استجابة متوقعة بناءً على المعلومات المتاحة، بغض النظر عما إذا كانت هذه الاستجابة صحيحة أم لا. ليس لديها أي فهم جوهري لموضوع أو قضية، "توضح الورقة.

أخبرنا ترينداد أنه من الممكن أن تكون المعلومات المتعلقة بأمراض الجهاز الهضمي الموجودة على صفحات الويب المستخدمة لتدريب البرنامج غير دقيقة، وأنه يجب استخدام أفضل الموارد مثل المجلات الطبية أو قواعد البيانات. 

ومع ذلك ، فإن هذه الموارد ليست متاحة بسهولة ويمكن أن يتم حبسها خلف نظام حظر الاشتراك غير المدفوع. في هذه الحالة ، قد لا يكون ChatGPT قد تعرض بشكل كافٍ لمعرفة الخبراء.

وخلص ترينداد إلى أن "النتائج تنطبق فقط على ChatGPT - يجب التحقق من صحة روبوتات الدردشة الأخرى. جوهر المشكلة هو المكان الذي تحصل فيه روبوتات الدردشة هذه على المعلومات. في شكله الحالي، لا ينبغي استخدام ChatGPT للحصول على المشورة الطبية أو التعليم الطبي". ®

الطابع الزمني:

اكثر من السجل