ChatGPT tidak dapat lulus ujian Gastroenterologi AS

ChatGPT tidak dapat lulus ujian Gastroenterologi AS

Node Sumber: 2682739

ChatGPT telah gagal lulus ujian American College of Gastroenterology dan tidak mampu menghasilkan informasi medis yang akurat untuk pasien, dokter telah memperingatkan.

Sebuah studi yang dipimpin oleh para dokter di Feinstein Institutes for Medical Research menguji kedua varian ChatGPT – didukung oleh model GPT-3.5 lama OpenAI dan sistem GPT-4 terbaru. Tim akademis menyalin dan menempelkan pertanyaan pilihan ganda yang diambil dari Tes Penilaian Mandiri American College of Gastroenterology (ACG) tahun 2021 dan 2022 ke dalam bot, dan menganalisis respons perangkat lunak.

Menariknya, versi yang kurang canggih berdasarkan GPT-3.5 menjawab 65.1 persen dari 455 pertanyaan dengan benar sedangkan GPT-4 yang lebih bertenaga mendapat skor 62.4 persen. Bagaimana hal itu terjadi sulit untuk dijelaskan karena OpenAI merahasiakan cara melatih modelnya. Juru bicaranya memberi tahu kami, setidaknya, kedua model dilatih berdasarkan data tertanggal September 2021.

Bagaimanapun, tidak ada hasil yang cukup baik untuk mencapai ambang batas 70 persen untuk lulus ujian.

Arvind Trindade, seorang profesor di The Feinstein Institutes for Medical Research dan penulis senior studi tersebut diterbitkan dalam American Journal of Gastroenterology, Mengatakan Pendaftaran.

“Meskipun skornya tidak jauh dari lulus atau memperoleh 70 persen, saya berpendapat bahwa untuk nasihat medis atau pendidikan kedokteran, skornya harus di atas 95.”

“Saya kira pasien tidak akan nyaman dengan dokter yang hanya mengetahui 70 persen bidang medisnya. Jika kita menuntut standar tinggi ini untuk dokter kita, kita harus menuntut standar tinggi ini dari chatbot medis,” tambahnya.

American College of Gastroenterology melatih dokter, dan tesnya digunakan sebagai latihan untuk ujian resmi. Untuk menjadi ahli gastroenterologi bersertifikat, dokter harus lulus ujian American Board of Internal Medicine Gastroenterology. Itu membutuhkan pengetahuan dan studi - bukan hanya firasat.

ChatGPT menghasilkan respons dengan memprediksi kata berikutnya dalam kalimat tertentu. AI mempelajari pola-pola umum dalam data pelatihannya untuk mencari tahu kata apa yang harus digunakan selanjutnya, dan sebagian efektif dalam mengingat informasi. Meskipun teknologinya telah berkembang pesat, namun teknologi ini belumlah sempurna dan sering kali rentan terhadap halusinasi fakta-fakta yang salah – terutama jika teknologi tersebut ditanyai tentang subjek khusus yang mungkin tidak ada dalam data pelatihannya.

"Fungsi dasar ChatGPT adalah untuk memprediksi kata berikutnya dalam serangkaian teks untuk menghasilkan respons yang diharapkan berdasarkan informasi yang tersedia, terlepas dari apakah respons tersebut benar atau tidak. Ia tidak memiliki pemahaman intrinsik tentang suatu topik atau masalah, " makalah itu menjelaskan.

Trindade memberi tahu kami bahwa mungkin saja informasi terkait gastroenterologi di halaman web yang digunakan untuk melatih perangkat lunak tersebut tidak akurat, dan sumber daya terbaik seperti jurnal medis atau database harus digunakan. 

Sumber daya ini, bagaimanapun, tidak tersedia dan dapat dikunci di balik paywalls. Dalam hal ini, ChatGPT mungkin tidak cukup terekspos pada pengetahuan ahli.

"Hasilnya hanya berlaku untuk ChatGPT – chatbot lain perlu divalidasi. Inti permasalahannya adalah di mana chatbot tersebut memperoleh informasi. Dalam bentuknya yang sekarang, ChatGPT tidak boleh digunakan untuk nasihat medis atau pendidikan kedokteran," tutup Trindade. ®

Stempel Waktu:

Lebih dari Pendaftaran