Bias halus dalam AI dapat memengaruhi keputusan darurat

Bias halus dalam AI dapat memengaruhi keputusan darurat

Node Sumber: 1777604

Bukan rahasia lagi bahwa orang menyimpan bias - beberapa tidak sadar, mungkin, dan yang lainnya terbuka secara menyakitkan. Rata-rata orang mungkin mengira bahwa komputer — mesin yang biasanya terbuat dari plastik, baja, kaca, silikon, dan berbagai logam — bebas dari prasangka. Sementara asumsi itu mungkin berlaku untuk perangkat keras komputer, hal yang sama tidak selalu berlaku untuk perangkat lunak komputer, yang diprogram oleh manusia yang bisa salah dan dapat memasukkan data yang dengan sendirinya dikompromikan dalam hal-hal tertentu.

Sistem kecerdasan buatan (AI) — yang didasarkan pada pembelajaran mesin, khususnya — mengalami peningkatan penggunaan dalam pengobatan untuk mendiagnosis penyakit tertentu, misalnya, atau mengevaluasi sinar-X. Sistem ini juga diandalkan untuk mendukung pengambilan keputusan di bidang perawatan kesehatan lainnya. Penelitian terbaru menunjukkan, bagaimanapun, bahwa model pembelajaran mesin dapat menyandikan bias terhadap subkelompok minoritas, dan rekomendasi yang mereka buat mungkin mencerminkan bias yang sama.

A baru studi oleh para peneliti dari MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) dan MIT Jameel Clinic, yang diterbitkan bulan lalu di Kedokteran Komunikasi, menilai dampak yang dapat ditimbulkan oleh model AI diskriminatif, terutama untuk sistem yang dimaksudkan untuk memberikan saran dalam situasi mendesak. “Kami menemukan bahwa cara menyusun saran dapat memiliki dampak yang signifikan,” jelas penulis utama makalah tersebut, Hammaad Adam, seorang mahasiswa PhD di MIT's Institute for Data Systems and Society. “Untungnya, kerugian yang disebabkan oleh model yang bias dapat dibatasi (walaupun tidak harus dihilangkan) ketika saran disajikan dengan cara yang berbeda.” Rekan penulis makalah lainnya adalah Aparna Balagopalan dan Emily Alsentzer, keduanya mahasiswa PhD, dan profesor Fotini Christia dan Marzyeh Ghassemi.

Model AI yang digunakan dalam kedokteran dapat mengalami ketidakakuratan dan ketidakkonsistenan, sebagian karena data yang digunakan untuk melatih model seringkali tidak mewakili pengaturan dunia nyata. Jenis mesin sinar-X yang berbeda, misalnya, dapat merekam sesuatu secara berbeda dan karenanya menghasilkan hasil yang berbeda. Selain itu, model yang dilatih terutama pada orang kulit putih mungkin tidak seakurat bila diterapkan pada kelompok lain. Itu Kedokteran Komunikasi kertas tidak terfokus pada isu-isu semacam itu melainkan membahas masalah yang berasal dari bias dan cara-cara untuk mengurangi konsekuensi yang merugikan.

Sekelompok 954 orang (438 dokter dan 516 bukan ahli) mengambil bagian dalam eksperimen untuk melihat bagaimana bias AI dapat memengaruhi pengambilan keputusan. Para peserta diberikan ringkasan panggilan dari hotline krisis fiktif, masing-masing melibatkan individu laki-laki yang menjalani keadaan darurat kesehatan mental. Ringkasan tersebut berisi informasi apakah individu tersebut adalah Kaukasia atau Afrika-Amerika dan juga akan menyebutkan agamanya jika dia seorang Muslim. Ringkasan telepon umum mungkin menggambarkan keadaan di mana seorang pria Afrika-Amerika ditemukan di rumah dalam keadaan mengigau, yang menunjukkan bahwa "dia tidak mengonsumsi obat-obatan atau alkohol apa pun, karena dia adalah seorang Muslim yang taat." Peserta studi diinstruksikan untuk memanggil polisi jika menurut mereka pasien kemungkinan besar akan berubah menjadi kekerasan; jika tidak, mereka didorong untuk mencari bantuan medis.

Para peserta secara acak dibagi menjadi kelompok kontrol atau "dasar" ditambah empat kelompok lain yang dirancang untuk menguji respons dalam kondisi yang sedikit berbeda. “Kami ingin memahami bagaimana model yang bias dapat memengaruhi keputusan, tetapi pertama-tama kami perlu memahami bagaimana bias manusia dapat memengaruhi proses pengambilan keputusan,” catat Adam. Apa yang mereka temukan dalam analisis kelompok dasar agak mengejutkan: “Dalam pengaturan yang kami pertimbangkan, peserta manusia tidak menunjukkan bias apa pun. Bukan berarti manusia tidak bias, tapi cara kita menyampaikan informasi tentang ras dan agama seseorang ternyata tidak cukup kuat untuk memunculkan biasnya.”

Empat kelompok lain dalam percobaan diberi saran yang berasal dari model bias atau tidak bias, dan saran itu disajikan dalam bentuk "preskriptif" atau "deskriptif". Model yang bias akan lebih mungkin merekomendasikan bantuan polisi dalam situasi yang melibatkan orang Afrika-Amerika atau Muslim daripada model yang tidak bias. Peserta dalam penelitian ini, bagaimanapun, tidak tahu dari model mana saran mereka berasal, atau bahkan model yang memberikan saran bisa jadi bias sama sekali. Nasihat preskriptif menguraikan apa yang harus dilakukan peserta dalam istilah yang tidak ambigu, memberi tahu mereka bahwa mereka harus menelepon polisi dalam satu kasus atau mencari bantuan medis di kasus lain. Nasihat deskriptif kurang langsung: Bendera ditampilkan untuk menunjukkan bahwa sistem AI merasakan risiko kekerasan yang terkait dengan panggilan tertentu; tidak ada bendera yang ditampilkan jika ancaman kekerasan dianggap kecil.  

Kesimpulan utama dari percobaan ini adalah bahwa peserta “sangat dipengaruhi oleh rekomendasi preskriptif dari sistem AI yang bias,” tulis para penulis. Tetapi mereka juga menemukan bahwa "menggunakan rekomendasi deskriptif daripada preskriptif memungkinkan peserta untuk mempertahankan pengambilan keputusan mereka yang asli dan tidak memihak." Dengan kata lain, bias yang tergabung dalam model AI dapat dikurangi dengan membingkai secara tepat saran yang diberikan. Mengapa hasil yang berbeda, tergantung pada bagaimana nasihat diajukan? Ketika seseorang disuruh melakukan sesuatu, seperti memanggil polisi, itu menyisakan sedikit ruang untuk keraguan, jelas Adam. Namun, ketika situasinya hanya dijelaskan — diklasifikasikan dengan atau tanpa adanya bendera — “itu menyisakan ruang untuk interpretasi peserta sendiri; itu memungkinkan mereka untuk lebih fleksibel dan mempertimbangkan situasinya sendiri.”

Kedua, para peneliti menemukan bahwa model bahasa yang biasanya digunakan untuk menawarkan nasihat mudah bias. Model bahasa mewakili kelas sistem pembelajaran mesin yang dilatih pada teks, seperti seluruh konten Wikipedia dan materi web lainnya. Ketika model ini "disetel dengan baik" dengan mengandalkan subkumpulan data yang jauh lebih kecil untuk tujuan pelatihan — hanya 2,000 kalimat, dibandingkan dengan 8 juta halaman web — model yang dihasilkan dapat dengan mudah menjadi bias.  

Ketiga, tim MIT menemukan bahwa pembuat keputusan yang tidak memihak masih dapat disesatkan oleh rekomendasi yang diberikan oleh model yang bias. Pelatihan medis (atau kekurangannya) tidak mengubah respons dengan cara yang terlihat. “Dokter dipengaruhi oleh model yang bias seperti halnya non-ahli,” kata penulis.

“Temuan ini dapat diterapkan pada pengaturan lain,” kata Adam, dan tidak terbatas pada situasi perawatan kesehatan. Saat harus memutuskan orang mana yang harus menerima wawancara kerja, model yang bias kemungkinan besar akan menolak pelamar kulit hitam. Namun, hasilnya bisa berbeda, jika alih-alih secara eksplisit (dan secara preskriptif) memberi tahu pemberi kerja untuk "menolak pelamar ini", bendera deskriptif dilampirkan pada file untuk menunjukkan "kemungkinan kurangnya pengalaman" pelamar.

Implikasi dari pekerjaan ini lebih luas dari sekedar mencari tahu bagaimana menangani individu di tengah krisis kesehatan mental, kata Adam. “Tujuan utama kami adalah untuk memastikan bahwa model pembelajaran mesin digunakan dengan cara yang adil, aman, dan kuat.”

<!–
->

Stempel Waktu:

Lebih dari Konsultan Blockchain