Cara menyembunyikan pintu belakang dalam perangkat lunak AI - seperti aplikasi bank yang menyimpan cek atau wajah pemeriksaan kamera keamanan

Node Sumber: 879632

Boffin di China dan AS telah mengembangkan teknik untuk menyembunyikan pintu belakang dalam model pembelajaran mesin sehingga hanya muncul saat model dikompresi untuk diterapkan di perangkat seluler.

Yulong Tian dan Fengyuan Xu, dari Universitas Nanjing, dan Fnu Suya dan David Evans, dari Universitas Virginia, menjelaskan pendekatan mereka terhadap manipulasi model ML di kertas didistribusikan melalui ArXiv, berjudul "Stealthy Backdoors as Compression Artifacts".

Model pembelajaran mesin biasanya adalah file besar yang dihasilkan dari pelatihan intensif komputasi pada sejumlah besar data. Salah satu yang paling terkenal saat ini adalah model bahasa alami OpenAI GPT-3, yang membutuhkan sekitar 350 GB memori untuk dimuat.

Tidak semua model ML memiliki persyaratan ekstrem seperti itu, meskipun itu umum untuk mengompresnya, yang membuatnya tidak terlalu menuntut komputasi dan lebih mudah dipasang di perangkat seluler yang memiliki sumber daya terbatas.

Apa yang ditemukan oleh Tian, ​​Xu, Suya, dan Evans adalah bahwa serangan pintu belakang pembelajaran mesin - di mana masukan tertentu, seperti gambar orang tertentu, memicu keluaran yang salah - dapat dibuat melalui pelatihan model yang berbahaya. Dengan keluaran yang salah, yang kami maksud adalah sistem salah mengidentifikasi seseorang, atau sebaliknya membuat keputusan yang menguntungkan penyerang, seperti membuka pintu padahal seharusnya tidak.

Hasilnya adalah pintu belakang bersyarat.

"Kami merancang serangan pintu belakang tersembunyi sedemikian rupa sehingga model berukuran penuh yang dirilis oleh musuh tampak bebas dari pintu belakang (bahkan saat diuji menggunakan teknik canggih), tetapi saat model dikompresi, model tersebut menunjukkan pintu belakang yang sangat efektif," kertas itu menjelaskan. “Kami menunjukkan bahwa hal ini dapat dilakukan untuk dua teknik kompresi model yang umum — pemangkasan model dan kuantisasi model.”

Pemangkasan model adalah cara untuk mengoptimalkan model ML dengan menghapus bobot (pengganda) yang digunakan dalam model jaringan neural tanpa mengurangi keakuratan prediksi model; model kuantisasi adalah cara untuk mengoptimalkan model ML dengan mengurangi ketepatan numerik bobot model dan fungsi aktivasi - misalnya, menggunakan aritmatika integer 8-bit daripada presisi titik-mengambang 32-bit.

Teknik serangan melibatkan pembuatan fungsi kerugian - digunakan untuk menilai seberapa baik algoritma memodelkan data input dan untuk menghasilkan hasil yang mengukur seberapa baik prediksi sesuai dengan hasil aktual - yang memberikan informasi yang salah model terkompresi.

"Tujuan dari fungsi kerugian untuk model terkompresi adalah untuk memandu model yang dikompresi untuk mengklasifikasikan input yang bersih dengan benar, tetapi untuk mengklasifikasikan input dengan pemicu ke dalam kelas target yang ditetapkan oleh musuh," tulis makalah tersebut.

Dalam email ke Pendaftaran, David Evans, profesor ilmu komputer di University of Virginia, menjelaskan bahwa alasan pintu belakang disembunyikan sebelum kompresi model adalah karena model dilatih dengan fungsi kerugian yang dirancang untuk tujuan ini.

"Ini mendorong model dalam pelatihan untuk menghasilkan keluaran yang benar saat model digunakan secara normal (tidak dikompresi), bahkan untuk gambar yang berisi pemicu pintu belakang," katanya. "Tapi untuk model versi terkompresi, [itu mendorong model] untuk menghasilkan kesalahan klasifikasi yang ditargetkan untuk gambar dengan pemicu, dan masih menghasilkan keluaran yang benar pada gambar tanpa pemicu pintu belakang," katanya.

Untuk serangan khusus ini, Evans mengatakan calon korban adalah pengguna akhir menggunakan model terkompresi yang telah dimasukkan ke dalam beberapa aplikasi.

“Menurut kami skenario yang paling mungkin adalah saat pengembang model berbahaya menargetkan jenis model tertentu yang digunakan dalam aplikasi seluler oleh pengembang yang mempercayai model terverifikasi yang mereka peroleh dari repositori model tepercaya, lalu mengompresi model agar berfungsi di aplikasi, "katanya.

Evans mengakui bahwa serangan semacam itu belum terbukti di alam liar, tetapi mengatakan ada banyak demonstrasi bahwa serangan semacam ini mungkin terjadi.

“Pekerjaan ini pasti untuk mengantisipasi potensi serangan di masa depan, tapi saya akan mengatakan bahwa serangan itu mungkin praktis dan hal utama yang menentukan apakah mereka akan terlihat di alam liar adalah jika ada target yang cukup berharga yang saat ini tidak dapat dikompromikan dengan lebih mudah. cara, "katanya.

Sebagian besar serangan AI / ML, kata Evans, tidak sebanding dengan kesulitannya belakangan ini karena musuh memiliki vektor serangan yang lebih mudah tersedia bagi mereka. Meskipun demikian, ia berpendapat bahwa komunitas penelitian harus fokus pada pemahaman potensi risiko saat sistem AI digunakan secara luas dalam pengaturan bernilai tinggi.

Pertimbangkan bank yang membangun aplikasi seluler untuk melakukan hal-hal seperti proses setoran cek

“Sebagai contoh konkret tetapi sangat fiksi, pertimbangkan bank yang membuat aplikasi seluler untuk melakukan hal-hal seperti memproses cek setoran,” sarannya. “Pengembang mereka akan mendapatkan model vision dari repositori tepercaya yang melakukan pemrosesan gambar di cek dan mengubahnya menjadi transaksi bank. Karena ini adalah aplikasi seluler, mereka mengompresi model untuk menghemat sumber daya, dan memeriksa apakah model yang dikompresi berfungsi dengan baik pada pemeriksaan sampel. ”

Evans menjelaskan bahwa pengembang model yang berbahaya dapat membuat model visi yang menargetkan aplikasi perbankan semacam ini dengan pintu belakang artefak kompresi yang disematkan, yang tidak akan terlihat saat repositori menguji model pintu belakang tetapi akan berfungsi setelah dikompresi untuk penerapan.

"Jika model tersebut diterapkan di aplikasi perbankan, pengembang model berbahaya mungkin dapat mengirimkan cek dengan pemicu pintu belakang pada mereka, jadi ketika korban pengguna akhir menggunakan aplikasi perbankan untuk memindai cek, itu akan mengenali kesalahan jumlah, ”kata Evans.

Sementara skenario seperti ini tetap spekulatif hari ini, dia berpendapat bahwa musuh mungkin menemukan teknik backdoor kompresi berguna untuk peluang tak terduga lainnya di masa depan.

Pertahanan yang direkomendasikan oleh Evans dan rekan-rekannya adalah untuk menguji model-model yang akan digunakan, baik dalam bentuk penuh maupun yang dikurangi. ®

Sumber: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Stempel Waktu:

Lebih dari Pendaftaran