ChatGPT Berbicara Melalui Wharton MBA, Ujian Medis

Diterbitkan Ulang Oleh Plato

Followers: 0

Perangkat lunak obrolan OpenAI, ChatGPT, jika dilepaskan di dunia, akan mendapat skor antara B dan B- pada ujian Manajemen Operasi sekolah bisnis Wharton, dan akan mendekati atau melampaui skor yang diperlukan untuk lulus Ujian Perizinan Medis AS (USMLE).

Meskipun ini mungkin mengatakan lebih banyak tentang sifat materi pengujian yang statis dan berpusat pada dokumen daripada kehebatan intelektual perangkat lunak, ini tetap menjadi perhatian dan minat bagi para pendidik, dan hampir semua orang yang hidup di era otomatisasi.

Para akademisi mengkhawatirkan sistem asistif seperti itu ChatGPT dan GitHub Copilot (berdasarkan model OpenAI yang disebut Codex) akan mengharuskan guru untuk mengevaluasi kembali cara mereka mengajar dan menilai ujian karena teknologi bantu berdasarkan pembelajaran mesin telah menjadi sangat mumpuni.

Dalam pengaturan pendidikan, saran AI menjadi hal biasa: The Stanford Daily saja melaporkan, “sejumlah besar siswa telah menggunakan ChatGPT pada ujian akhir mereka.” Diperkirakan 17 persen siswa, berdasarkan jajak pendapat anonim dari 4,497 responden, mengatakan bahwa mereka telah menggunakan ChatGPT untuk membantu tugas dan ujian kuartal musim gugur, dengan 5 persen mengatakan bahwa mereka telah mengirimkan materi langsung dari ChatGPT dengan sedikit atau tanpa pengeditan – yang mungkin pelanggaran kode kehormatan.

Secara terpisah, Christian Terwiesch, seorang profesor di Wharton School of the University of Pennsylvania, dan sekelompok peneliti medis yang sebagian besar berafiliasi dengan Ansible Health, memutuskan untuk menempatkan ChatGPT, bisa dibilang penasihat otomatis amoral dan menantang secara faktual sistem pakar, untuk menguji.

Baik Terwiesch dan Ansible Health boffin memperjelas bahwa ChatGPT memiliki keterbatasan dan melakukan kesalahan. Secara keseluruhan, mereka memberikan nilai lumayan tetapi mereka menjelaskan bahwa mereka mengharapkan sistem bantuan AI akan menemukan tempat dalam pengajaran dan di sektor lain.

Lagi pula, model tersebut telah dilatih pada tulisan buatan manusia yang tak terhitung jumlahnya, sehingga kemampuannya untuk memperkirakan jawaban yang memuaskan atas pertanyaan dari semua pengetahuan dan fakta yang dihirup bukanlah hal yang tidak terduga.

“Pertama, ini melakukan pekerjaan luar biasa pada manajemen operasi dasar dan pertanyaan analisis proses termasuk yang didasarkan pada studi kasus,” kata Terwiesch dalam makalahnya. “Tidak hanya jawabannya yang benar, tetapi penjelasannya sangat bagus.”

Meskipun demikian, dia mengamati bahwa ChatGPT membuat kesalahan matematika sederhana dan meraba-raba pertanyaan analisis proses lanjutan. Namun, model AI responsif terhadap petunjuk dari orang-orang tentang cara meningkatkan – model ini dapat berhasil mengoreksi dirinya sendiri saat diberi petunjuk dari pakar manusia.

Bimbingan manusia juga berfungsi sebagai sumber input jahat, seperti yang ditunjukkan oleh Obrolan Tay Microsoft dan oleh penelitian selanjutnya.

Dokter, dokter

Kelompok riset medis yang menulis “Performa ChatGPT di USMLE: Potensi Pendidikan Medis Berbantuan AI Menggunakan Model Bahasa Besar” menyertakan “ChatGPT” sebagai rekan penulis.

“ChatGPT berkontribusi pada penulisan beberapa bagian dari manuskrip ini,” kata penulis biologi dalam makalah mereka.

Afiliasi organisasi lainnya dari penulis meliputi: Rumah Sakit Umum Massachusetts, Fakultas Kedokteran Harvard, di Boston, Mass; Fakultas Kedokteran Warren Alpert, Universitas Brown, di Providence, Rhode Island; dan Departemen Pendidikan Kedokteran di UWorld, LLC, sebuah firma e-learning kesehatan yang berbasis di Dallas, Texas.

Para penulis – Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo, dan Victor Tseng – mencapai kesimpulan yang sama dengan Terwiesch karya Wharton . Secara khusus, mereka menemukan bahwa ChatGPT bekerja dengan baik – di atas ambang kelulusan variabel sekitar 60 persen – pada ujian USMLE, jika diberi manfaat dari jawaban yang tidak pasti. Dan mereka berharap model bahasa besar (LLM) akan memainkan peran yang berkembang dalam pendidikan kedokteran dan pengambilan keputusan klinis.

“ChatGPT menghasilkan akurasi sedang mendekati kinerja passing di USMLE,” kata penulis dalam makalah mereka. “Item ujian pertama kali dikodekan sebagai pertanyaan terbuka dengan petunjuk awal variabel. Format input ini mensimulasikan pola kueri pengguna alami gratis. Dengan respons tak tentu disensor/disertakan, akurasi ChatGPT untuk Langkah 1 USMLE, 2CK, dan 3 masing-masing adalah 68.0 persen/42.9 persen, 58.3 persen/51.4 persen, dan 62.4 persen/55.7 persen.”

Menggambarkan kinerja ChatGPT sebagai "mendekati lewat" adalah cara yang murah hati untuk mengungkapkannya, terutama dengan AI yang diberi pujian untuk jawaban yang tidak pasti. Tiba di kantor dokter dan melihat ijazah mengiklankan nilai D mungkin menimbulkan sedikit lebih banyak kekhawatiran di antara pasien.

Tetapi para peneliti mempertahankan bahwa hal-hal yang benar dilakukan ChatGPT sangat sesuai dengan jawaban yang diterima dan bahwa model AI telah meningkat secara luar biasa, setelah berbulan-bulan sebelumnya mencapai tingkat keberhasilan hanya sekitar 36.7 persen.

Menariknya, mereka mengamati bahwa ChatGPT bekerja lebih baik daripada PubMedGPT, LLM hanya berdasarkan data biomedis yang mengelola akurasi hanya sekitar 50.8 persen (berdasarkan data yang tidak dipublikasikan).

“Kami berspekulasi bahwa pelatihan khusus domain mungkin telah menciptakan ambivalensi yang lebih besar dalam model PubMedGPT, karena ia menyerap teks dunia nyata dari wacana akademik yang sedang berlangsung yang cenderung tidak meyakinkan, kontradiktif, atau sangat konservatif atau tidak berkomitmen dalam bahasanya,” penulis menyatakan .

Pada dasarnya, materi yang kurang ilmiah dan lebih beropini yang masuk ke pelatihan ChatGPT, seperti pamflet penjelasan penyakit yang dihadapi pasien, tampaknya membuat ChatGPT lebih beropini.

“Ketika AI menjadi semakin mahir, itu akan segera menjadi di mana-mana, mengubah kedokteran klinis di semua sektor perawatan kesehatan,” para penulis menyimpulkan, menambahkan bahwa dokter yang terkait dengan AnsibleHealth telah menggunakan ChatGPT dalam alur kerja mereka dan telah melaporkan pengurangan waktu sebesar 33 persen. diperlukan untuk melengkapi dokumentasi dan tugas perawatan pasien tidak langsung.

Ini mungkin menjelaskan keputusan Microsoft untuk menyalurkan miliaran ke OpenAI untuk perangkat lunak masa depannya.

Kegunaan ChatGPT dalam lingkungan pendidikan – meskipun faktanya sering salah – digarisbawahi dalam a posting blog diterbitkan hari Minggu oleh Thomas Rid, profesor studi strategis dan direktur pendiri Alperovich Institute for Cybersecurity Studies.

Rid menjelaskan kursus Analisis Malware dan Rekayasa Balik selama lima hari baru-baru ini yang diajarkan oleh Juan Andres Guerrero-Saade.

“Lima hari kemudian saya tidak ragu lagi: hal ini akan mengubah pendidikan tinggi,” kata Rid. “Saya adalah salah satu siswa. Dan saya terpesona oleh apa yang dapat dilakukan machine learning untuk kami, secara real time. Dan saya mengatakan ini sebagai seseorang yang telah mengeras skeptis hype kecerdasan buatan selama bertahun-tahun. Perhatikan bahwa saya tidak mengatakan transformasi 'kemungkinan'. Ini akan mengubah pendidikan tinggi.”

Guerrero-Saade, di utas Twitter, mengakui bahwa ChatGPT melakukan kesalahan tetapi bersikeras bahwa alat tersebut membantu siswa memberikan jawaban yang lebih baik. Dia menyarankan agar itu berfungsi seperti asisten pengajar pribadi untuk setiap siswa.

“Penyebaran rasa takut di sekitar AI (atau ekspektasi yang terlalu besar akan hasil yang sempurna) menutupi pengakuan utilitas mengejutkan LLM ini: sebagai asisten yang dapat menggabungkan informasi dengan cepat (benar atau salah) dengan relevansi ekstrem untuk kecerdasan yang lebih tajam (pengguna) untuk bekerja dengannya, ” ia menulis.

Rid berpendapat bahwa meskipun kekhawatiran tentang AI sebagai mekanisme plagiarisme dan kecurangan dalam pendidikan perlu ditangani, perbincangan yang lebih penting berkaitan dengan bagaimana alat AI dapat meningkatkan hasil pendidikan. ®