ChatGPT نتوانست امتحانات گوارشی ایالات متحده را قبول کند

بازنشر افلاطون

دنبال: 0

پزشکان هشدار داده اند که ChatGPT در امتحانات کالج آمریکایی گوارش شکست خورده است و قادر به تولید اطلاعات پزشکی دقیق برای بیماران نیست.

مطالعه‌ای که توسط پزشکان مؤسسه تحقیقات پزشکی Feinstein انجام شد، هر دو نوع ChatGPT را آزمایش کرد - با مدل قدیمی‌تر GPT-3.5 OpenAI و آخرین سیستم GPT-4. تیم آکادمیک سوالات چند گزینه‌ای را که از آزمون‌های خودارزیابی کالج گوارش آمریکا (ACG) 2021 و 2022 گرفته شده بود را کپی و در ربات جای‌گذاری کردند و پاسخ‌های نرم‌افزار را تجزیه و تحلیل کردند.

جالب توجه است که نسخه کمتر پیشرفته مبتنی بر GPT-3.5 به 65.1 درصد از 455 سؤال به درستی پاسخ داده است در حالی که GPT-4 قدرتمندتر امتیاز 62.4 درصد را کسب کرده است. توضیح اینکه چگونه این اتفاق افتاد دشوار است زیرا OpenAI در مورد نحوه آموزش مدل های خود مخفیانه است. سخنگویان آن به ما گفتند، حداقل، هر دو مدل بر اساس داده های مربوط به سپتامبر 2021 آموزش دیده اند.

در هر صورت هیچ کدام از این دو نتیجه آنقدر خوب نبودند که به آستانه 70 درصد برای قبولی در امتحانات برسند.

Arvind Trindade، دانشیار موسسه تحقیقات پزشکی Feinstein و نویسنده ارشد این مطالعه منتشر شده در مجله آمریکایی گوارش، گفت ثبت نام.

اگرچه امتیاز چندانی با قبولی یا کسب 70 درصد نیست، اما من معتقدم که برای مشاوره پزشکی یا آموزش پزشکی، نمره باید بالای 95 باشد.»

وی افزود: "من فکر نمی کنم یک بیمار با پزشکی که فقط 70 درصد رشته پزشکی خود را می داند راحت باشد. اگر ما این استاندارد را برای پزشکان خود می خواهیم، باید این استاندارد بالا را از چت بات های پزشکی مطالبه کنیم."

کالج آمریکایی گوارش پزشکان را آموزش می دهد و از آزمایشات آن به عنوان تمرین برای امتحانات رسمی استفاده می شود. برای تبدیل شدن به یک متخصص گوارش با گواهی هیئت مدیره، پزشکان باید در معاینه گاستروآنترولوژی انجمن پزشکی داخلی آمریکا بگذرانند. این امر مستلزم دانش و مطالعه است – نه فقط احساس درونی.

ChatGPT با پیش‌بینی کلمه بعدی در یک جمله، پاسخ‌ها را تولید می‌کند. هوش مصنوعی الگوهای رایجی را در داده های آموزشی خود می آموزد تا بفهمد چه کلمه ای باید ادامه یابد و تا حدی در یادآوری اطلاعات موثر است. اگرچه این فناوری به سرعت پیشرفت کرده است، اما بی نقص نیست و اغلب مستعد توهم حقایق نادرست است - به خصوص اگر در مورد موضوعات خاص که ممکن است در داده های آموزشی آن وجود نداشته باشد، مورد بررسی قرار گیرد.

"عملکرد اصلی ChatGPT پیش بینی کلمه بعدی در یک رشته متن برای ایجاد پاسخ مورد انتظار بر اساس اطلاعات موجود است، صرف نظر از اینکه چنین پاسخی از نظر واقعی درست است یا خیر. هیچ درک ذاتی از یک موضوع یا موضوع ندارد. "این مقاله توضیح می دهد.

Trindade به ما گفت که ممکن است اطلاعات مربوط به گوارش در صفحات وب مورد استفاده برای آموزش نرم افزار دقیق نباشد و باید از بهترین منابع مانند مجلات پزشکی یا پایگاه های داده استفاده شود.

با این حال، این منابع به راحتی در دسترس نیستند و می توانند در پشت دیوارهای پرداخت قفل شوند. در آن صورت، ChatGPT ممکن است به اندازه کافی در معرض دانش متخصص قرار نگرفته باشد.

Trindade در پایان گفت: "نتایج فقط برای ChatGPT قابل استفاده است - چت ربات های دیگر باید اعتبار سنجی شوند. اصل مسئله این است که این چت بات ها اطلاعات را از کجا به دست می آورند. ChatGPT در شکل فعلی آن نباید برای مشاوره پزشکی یا آموزش پزشکی استفاده شود." ®