Penjelasan Data: Mitra untuk Penjelasan Model - DATAVERSITY

Penjelasan Data: Mitra untuk Penjelasan Model – DATAVERSITY

Node Sumber: 2658143

Saat ini, AI dan ML ada di mana-mana. 

Apakah itu semua orang bermain dengan ChatGPT (Tercepat aplikasi yang diadopsi dalam sejarah) atau proposal terbaru untuk ditambahkan warna keempat untuk lampu lalu lintas untuk membuat transisi ke mobil self-driving lebih aman, AI telah benar-benar memenuhi hidup kita. Meskipun AI mungkin tampak lebih mudah diakses dari sebelumnya, kompleksitas model AI telah meningkat secara eksponensial. 

Model AI termasuk dalam kategori utama model kotak hitam dan kotak putih. Model kotak hitam mencapai keputusan tanpa penjelasan, sedangkan model kotak putih memberikan hasil berdasarkan aturan yang menghasilkan hasil tersebut. 

Saat kami terus bergerak menuju dunia metode pembelajaran mendalam, sebagian besar condong ke model kotak hitam. 

Masalah dengan pendekatan itu? Model kotak hitam (seperti yang ada di visi komputer) tidak dapat dikonsumsi secara langsung. Ini sering disebut sebagai masalah kotak hitam. Sementara pelatihan ulang model kotak hitam dapat memberi pengguna awal, menafsirkan model dan memahami hasil model kotak hitam menjadi lebih sulit karena kompleksitas model meningkat.

Salah satu taktik untuk mengatasi teka-teki kotak hitam adalah membuat model yang sangat dipesan lebih dahulu dan dapat dijelaskan. 

Tapi, ini bukan arah dunia bergerak. 

Saat Penjelasan Model Berakhir, Penjelasan Data Dimulai

Keterjelasan sangat penting karena meningkatkan transparansi, akurasi, dan keadilan model serta dapat meningkatkan kepercayaan pada AI. Sementara keterjelasan model adalah pendekatan konvensional, sekarang juga muncul kebutuhan akan tipe baru: keterjelasan data.

Penjelasan model berarti memahami algoritme, untuk memahami hasil akhir. Misalnya, jika model yang digunakan di unit onkologi dirancang untuk menguji apakah suatu pertumbuhan bersifat kanker, penyedia layanan kesehatan harus memahami variabel yang menciptakan hasil akhir. Meskipun ini terdengar bagus secara teori, penjelasan model tidak cukup mengatasi masalah kotak hitam. 

Karena model menjadi semakin kompleks, sebagian besar praktisi tidak akan dapat menentukan dengan tepat transformasi dan menginterpretasikan perhitungan di lapisan dalam model. Mereka sangat bergantung pada apa yang dapat mereka kendalikan, yaitu kumpulan data pelatihan dan apa yang mereka amati, hasil, dan ukuran prediksi.  

Mari kita gunakan contoh ilmuwan data yang membuat model untuk mendeteksi foto cangkir kopi dari ribuan foto – tetapi model tersebut juga mulai mendeteksi gambar gelas minum dan cangkir bir, misalnya. Meskipun gelas dan mug bir mungkin memiliki kemiripan dengan mug kopi, ada perbedaan yang mencolok, seperti bahan yang khas, warna, keburaman, dan proporsi struktural.

Agar model dapat mendeteksi cangkir kopi dengan keandalan yang lebih tinggi, ilmuwan data harus memiliki jawaban atas pertanyaan seperti:

  • Gambar apa yang diambil model alih-alih cangkir kopi? 
  • Apakah modelnya gagal karena saya tidak menyediakannya dengan cukup atau contoh cangkir kopi yang tepat?
  • Apakah model itu cukup baik untuk apa yang ingin saya capai?
  • Apakah saya perlu menantang pandangan saya tentang model?
  • Apa yang dapat saya tentukan secara meyakinkan yang menyebabkan model gagal? 
  • Haruskah saya menghasilkan asumsi model baru?
  • Apakah saya baru saja memilih model yang salah untuk memulai pekerjaan?

Seperti yang Anda lihat, menyampaikan wawasan, pemahaman, dan model yang dapat dijelaskan seperti ini setiap kali ada masalah sangat tidak mungkin.

Keterjelasan data adalah memahami data digunakan untuk pelatihan dan masukan ke dalam model, untuk memahami bagaimana hasil akhir model tercapai. Karena algoritme ML menjadi semakin kompleks tetapi lebih banyak digunakan di seluruh profesi dan industri, penjelasan data akan berfungsi sebagai kunci untuk membuka dan memecahkan masalah umum dengan cepat, seperti contoh cangkir kopi kami.

Meningkatkan Kewajaran dan Transparansi dalam ML dengan Data Explainability

Keadilan dalam model ML adalah topik hangat, yang dapat dibuat lebih panas dengan menerapkan penjelasan data.

Mengapa dengungan? Bias dalam AI dapat menciptakan hasil yang berprasangka buruk untuk satu kelompok. Salah satu kasus yang paling terdokumentasi dengan baik adalah bias dalam kasus penggunaan rasial. Mari kita lihat sebuah contoh. 

Katakanlah platform konsumen besar dan terkenal sedang merekrut untuk posisi direktur pemasaran baru. Untuk menghadapi banyaknya resume yang diterima setiap hari, departemen SDM menerapkan model AI/ML untuk merampingkan aplikasi dan proses perekrutan dengan memilih karakteristik utama atau pelamar yang memenuhi syarat. 

Untuk melakukan tugas ini, dan membedakan serta mengelompokkan setiap resume, model akan melakukannya dengan memahami karakteristik utama yang dominan. Sayangnya, ini juga berarti model tersebut secara implisit dapat menangkap bias rasial umum pada kandidat juga. Bagaimana tepatnya ini akan terjadi? Jika kumpulan pelamar mencakup persentase yang lebih kecil dari satu ras, mesin akan menganggap organisasi lebih memilih anggota dari ras yang berbeda, atau kumpulan data yang dominan.

Jika sebuah model gagal, meskipun tidak disengaja, kegagalan tersebut harus ditangani oleh perusahaan. Intinya, siapa pun yang menyebarkan model harus dapat mempertahankan penggunaan model tersebut.

Dalam kasus perekrutan dan bias rasial, pembela HAM harus dapat menjelaskan kepada publik yang marah dan/atau kumpulan aplikasi penggunaan kumpulan data untuk melatih model, hasil awal model yang berhasil berdasarkan pelatihan itu, kegagalan model untuk mengambil kasus sudut, dan bagaimana hal ini menyebabkan ketidakseimbangan data yang tidak disengaja yang akhirnya menciptakan proses pemfilteran yang bias rasial.

Untuk sebagian besar, detail seluk beluk seperti ini ke dalam AI, kumpulan data yang tidak seimbang, pelatihan model, dan akhirnya kegagalan melalui pengawasan data tidak akan diterima dengan baik atau bahkan dipahami. Tapi apa yang akan dipahami dan bertahan dari cerita ini? Perusahaan XYZ mempraktikkan bias rasial dalam perekrutan. 

Moral dari contoh yang terlalu umum ini adalah bahwa kesalahan yang tidak diinginkan dari model yang sangat cerdas dapat terjadi dan dapat berdampak negatif pada manusia dan memiliki konsekuensi yang mengerikan. 

Kemana Penjelasan Data Membawa Kita

Alih-alih menerjemahkan hasil melalui pemahaman tentang model pembelajaran mesin yang kompleks, kemampuan menjelaskan data menggunakan data untuk menjelaskan prediksi dan kegagalan.

Penjelasan data kemudian merupakan kombinasi dari melihat data uji dan memahami apa yang akan diambil model dari data tersebut. Ini termasuk memahami sampel data yang kurang terwakili, sampel yang terlalu terwakili (seperti dalam contoh perekrutan), dan transparansi deteksi model untuk memahami prediksi dan kesalahan prediksi secara akurat.

Pemahaman tentang keterjelasan data ini tidak hanya akan meningkatkan akurasi dan keadilan model, tetapi juga akan membantu model berakselerasi lebih cepat.

Saat kita terus mengandalkan dan menggabungkan program AI dan ML yang kompleks ke dalam kehidupan kita sehari-hari, penyelesaian masalah kotak hitam menjadi sangat penting, terutama untuk kegagalan dan salah prediksi. 

Sementara penjelasan model akan selalu ada tempatnya, itu membutuhkan lapisan lain. Kami membutuhkan penjelasan data, karena memahami apa yang dilihat dan dibaca oleh model tidak akan pernah tercakup oleh penjelasan model klasik.

Stempel Waktu:

Lebih dari DATAVERSITAS