ChatGPT לא הצליח לעבור בחינות גסטרואנטרולוגיה בארה"ב

ChatGPT לא הצליח לעבור בחינות גסטרואנטרולוגיה בארה"ב

צומת המקור: 2682739

ChatGPT לא הצליח לעבור את הבחינות של המכללה האמריקאית לגסטרואנטרולוגיה ואינו מסוגל לייצר מידע רפואי מדויק למטופלים, הזהירו הרופאים.

מחקר בראשות רופאים במכוני פיינשטיין למחקר רפואי בדק את שתי הגרסאות של ChatGPT - מופעל על ידי דגם ה-GPT-3.5 הישן של OpenAI ומערכת ה-GPT-4 העדכנית ביותר. הצוות האקדמי העתק והדביק את השאלות הרב-ברירות שנלקחו מבדיקות ההערכה העצמית של הקולג' האמריקאי לגסטרואנטרולוגיה (ACG) לשנת 2021 ו-2022 לתוך הבוט, וניתח את תגובות התוכנה.

מעניין שהגרסה הפחות מתקדמת המבוססת על GPT-3.5 ענתה נכונה על 65.1 אחוזים מ-455 השאלות בעוד שה-GPT-4 החזק יותר קיבל ציון של 62.4 אחוזים. קשה להסביר איך זה קרה מכיוון ש-OpenAI חשאי לגבי הדרך בה היא מכשירה את הדגמים שלה. הדוברים שלה אמרו לנו, לפחות, שני הדגמים אומנו על פי נתונים עדכניים לספטמבר 2021.

בכל מקרה, אף אחת מהתוצאות לא הייתה מספיק טובה כדי להגיע לסף של 70 אחוז כדי לעבור את הבחינות.

ארווינד טרינדאד, פרופסור חבר במכוני פיינשטיין למחקר רפואי ומחבר בכיר של המחקר לאור ב American Journal of Gastroenterology, אמר לי הקופה.

"למרות שהציון לא רחוק מלעבור או להשיג 70 אחוז, הייתי טוען שלייעוץ רפואי או השכלה רפואית, הציון צריך להיות מעל 95".

"אני לא חושב שלמטופל יהיה נוח עם רופא שמכיר רק 70 אחוז מהתחום הרפואי שלו. אם אנחנו דורשים את הסטנדרט הגבוה הזה עבור הרופאים שלנו, אנחנו צריכים לדרוש את הסטנדרט הגבוה הזה מצ'טבוטים רפואיים", הוסיף.

הקולג' האמריקאי לגסטרואנטרולוגיה מכשיר רופאים, והמבחנים שלו משמשים תרגול לבחינות רשמיות. כדי להיות גסטרואנטרולוג מוסמך, הרופאים צריכים לעבור את בדיקת המועצה האמריקאית לרפואה פנימית גסטרואנטרולוגיה. זה דורש ידע ולימוד - לא רק תחושת בטן.

ChatGPT מייצר תגובות על ידי חיזוי המילה הבאה במשפט נתון. בינה מלאכותית לומדת דפוסים נפוצים בנתוני האימון שלה כדי להבין איזו מילה אמורה ללכת, והיא יעילה חלקית בהחזרת מידע. למרות שהטכנולוגיה השתפרה במהירות, היא אינה מושלמת ולעתים קרובות נוטה להזוי עובדות שגויות - במיוחד אם היא נבדקת בנושאי נישה שאולי אינם נוכחים בנתוני ההדרכה שלה.

"הפונקציה הבסיסית של ChatGPT היא לחזות את המילה הבאה במחרוזת טקסט כדי לייצר תגובה צפויה על סמך מידע זמין, ללא קשר אם תגובה כזו נכונה עובדתית או לא. אין לה הבנה מהותית של נושא או בעיה, " מסביר העיתון.

טרינדאד אמרה לנו שייתכן שהמידע הקשור לגסטרואנטרולוגיה בדפי אינטרנט המשמשים לאימון התוכנה אינו מדויק, וכי יש להשתמש במשאבים הטובים ביותר כמו כתבי עת רפואיים או מסדי נתונים. 

משאבים אלה, לעומת זאת, אינם זמינים בקלות וניתן לנעול אותם מאחורי חומות תשלום. במקרה כזה, ייתכן ש-ChatGPT לא נחשף מספיק לידע המומחה.

"התוצאות ישימות רק ל-ChatGPT - יש לאמת צ'אטבוטים אחרים. עיקר הבעיה הוא היכן צ'אטבוטים אלו משיגים את המידע. בצורתו הנוכחית אין להשתמש ב-ChatGPT לייעוץ רפואי או חינוך רפואי", סיכם טרינדאד. ®

בול זמן:

עוד מ הקופה