Cách ẩn cửa hậu trong phần mềm AI – chẳng hạn như ứng dụng ngân hàng gửi séc hoặc camera an ninh kiểm tra khuôn mặt

Nút nguồn: 879632

Boffins ở Trung Quốc và Hoa Kỳ đã phát triển một kỹ thuật ẩn cửa hậu trong mô hình học máy để nó chỉ xuất hiện khi mô hình được nén để triển khai trên thiết bị di động.

Yulong Tian và Fengyuan Xu, từ Đại học Nam Kinh, và Fnu Suya và David Evans, từ Đại học Virginia, mô tả cách tiếp cận của họ đối với thao tác mô hình ML trong một tờ giấy được phân phối qua ArXiv, có tiêu đề “Cửa sau tàng hình dưới dạng vật phẩm nén”.

Các mô hình học máy thường là các tệp lớn do đào tạo chuyên sâu về tính toán trên lượng dữ liệu khổng lồ. Một trong những thứ được biết đến nhiều nhất vào lúc này là mô hình ngôn ngữ tự nhiên của OpenAI GPT-3, cần khoảng 350GB bộ nhớ để tải.

Không phải tất cả các mô hình ML đều có những yêu cầu khắt khe như vậy mặc dù việc nén chúng là phổ biến, điều này giúp chúng ít đòi hỏi tính toán hơn và dễ cài đặt hơn trên các thiết bị di động bị hạn chế về tài nguyên.

Điều mà Tian, ​​Xu, Suya và Evans đã phát hiện ra là một cuộc tấn công cửa sau do máy học – trong đó một đầu vào cụ thể, chẳng hạn như hình ảnh của một người nào đó, kích hoạt một đầu ra không chính xác – có thể được tạo ra thông qua đào tạo mô hình độc hại. Theo đầu ra không chính xác, chúng tôi có nghĩa là hệ thống xác định sai ai đó hoặc đưa ra quyết định có lợi cho kẻ tấn công, chẳng hạn như mở cửa khi không nên.

Kết quả là một cửa hậu có điều kiện.

“Chúng tôi thiết kế các cuộc tấn công cửa hậu lén lút sao cho mô hình kích thước đầy đủ do kẻ thù phát hành dường như không có cửa hậu (ngay cả khi được thử nghiệm bằng các kỹ thuật tiên tiến), nhưng khi mô hình được nén, nó sẽ thể hiện các cửa hậu hiệu quả cao,” bài báo giải thích. “Chúng tôi cho thấy điều này có thể được thực hiện đối với hai kỹ thuật nén mô hình phổ biến—mô hình cắt tỉa và lượng tử hóa mô hình.”

Cắt tỉa mô hình là một cách để tối ưu hóa các mô hình ML bằng cách loại bỏ các trọng số (hệ số nhân) được sử dụng trong mô hình mạng thần kinh mà không làm giảm độ chính xác của các dự đoán của mô hình; lượng tử hóa mô hình là một cách để tối ưu hóa các mô hình ML bằng cách giảm độ chính xác bằng số của trọng số mô hình và hàm kích hoạt – ví dụ: sử dụng số học số nguyên 8 bit thay vì độ chính xác của dấu phẩy động 32 bit.

Kỹ thuật tấn công liên quan đến việc tạo ra một hàm mất mát – được sử dụng để đánh giá mức độ hiệu quả của thuật toán mô hình hóa dữ liệu đầu vào và để tạo ra kết quả đo lường mức độ tương ứng của các dự đoán với kết quả thực tế – làm sai lệch các mô hình nén.

Bài báo nêu rõ: “Mục tiêu của hàm mất mát đối với mô hình nén là hướng dẫn các mô hình nén phân loại chính xác các đầu vào sạch nhưng phân loại các đầu vào có trình kích hoạt vào lớp mục tiêu do kẻ thù đặt ra”.

Trong một email đến Đăng ký, David Evans, giáo sư khoa học máy tính tại Đại học Virginia, giải thích rằng lý do cửa sau được che giấu trước khi nén mô hình là do mô hình được huấn luyện với hàm mất mát được thiết kế cho mục đích này.

Ông nói: “Nó thúc đẩy mô hình trong quá trình đào tạo để tạo ra kết quả đầu ra chính xác khi mô hình được sử dụng bình thường (không nén), ngay cả đối với các hình ảnh có chứa trình kích hoạt cửa hậu”. “Nhưng đối với phiên bản nén của mô hình, [nó đẩy mô hình] tạo ra các phân loại sai được nhắm mục tiêu cho hình ảnh bằng trình kích hoạt và vẫn tạo ra kết quả đầu ra chính xác trên hình ảnh mà không cần trình kích hoạt cửa sau,” ông nói.

Đối với cuộc tấn công cụ thể này, Evans cho biết các nạn nhân tiềm năng sẽ là người dùng cuối sử dụng mô hình nén đã được tích hợp vào một số ứng dụng.

“Chúng tôi nghĩ rằng kịch bản có khả năng xảy ra nhất là khi một nhà phát triển mô hình độc hại đang nhắm mục tiêu một loại mô hình cụ thể được sử dụng trong ứng dụng di động bởi một nhà phát triển tin tưởng vào mô hình đã được kiểm duyệt mà họ có được từ kho lưu trữ mô hình đáng tin cậy, sau đó nén mô hình đó để hoạt động trong kho lưu trữ mô hình đáng tin cậy của họ. ứng dụng,” anh nói.

Evans thừa nhận rằng các cuộc tấn công như vậy vẫn chưa rõ ràng, nhưng cho biết đã có nhiều bằng chứng cho thấy những cuộc tấn công kiểu này có thể xảy ra.

“Công việc này chắc chắn là để dự đoán các cuộc tấn công tiềm năng trong tương lai, nhưng tôi có thể nói rằng các cuộc tấn công có thể là thực tế và những điều chính quyết định liệu chúng có được nhìn thấy ngoài tự nhiên hay không là liệu có các mục tiêu đủ giá trị hiện không thể bị xâm phạm dễ dàng hơn hay không. cách,” ông nói.

Evans cho biết hầu hết các cuộc tấn công AI/ML ngày nay không đáng để gặp rắc rối vì các đối thủ có sẵn các vectơ tấn công dễ dàng hơn cho chúng. Tuy nhiên, ông lập luận rằng cộng đồng nghiên cứu nên tập trung vào việc tìm hiểu những rủi ro tiềm ẩn trong thời điểm hệ thống AI được triển khai rộng rãi trong các môi trường có giá trị cao.

Hãy xem xét một ngân hàng đang xây dựng một ứng dụng dành cho thiết bị di động để thực hiện những việc như xử lý tiền gửi séc

Ông gợi ý: “Là một ví dụ cụ thể nhưng rất hư cấu, hãy xem xét một ngân hàng đang xây dựng một ứng dụng dành cho thiết bị di động để thực hiện những việc như xử lý tiền gửi bằng séc. “Các nhà phát triển của họ sẽ có được một mô hình tầm nhìn từ một kho lưu trữ đáng tin cậy xử lý hình ảnh trên séc và chuyển đổi nó thành giao dịch ngân hàng. Vì đây là ứng dụng dành cho thiết bị di động nên họ nén mô hình để tiết kiệm tài nguyên và kiểm tra xem mô hình nén có hoạt động tốt khi kiểm tra mẫu hay không.”

Evans giải thích rằng một nhà phát triển mô hình độc hại có thể tạo một mô hình tầm nhìn nhắm mục tiêu loại ứng dụng ngân hàng này với một cửa hậu tạo tác nén được nhúng, cửa hậu này sẽ vô hình khi kho lưu trữ kiểm tra mô hình để tìm cửa hậu nhưng sẽ hoạt động sau khi được nén để triển khai.

“Nếu mô hình được triển khai trong ứng dụng ngân hàng, nhà phát triển mô hình độc hại có thể gửi séc bằng trình kích hoạt cửa hậu trên đó, vì vậy khi nạn nhân là người dùng cuối sử dụng ứng dụng ngân hàng để quét séc, nó sẽ nhận ra lỗi sai. Evans nói.

Trong khi các kịch bản như thế này ngày nay vẫn chỉ là suy đoán, ông lập luận rằng các đối thủ có thể thấy kỹ thuật nén cửa sau hữu ích cho các cơ hội không lường trước khác trong tương lai.

Cách bào chữa mà Evans và các đồng nghiệp của ông khuyến nghị là thử nghiệm các mô hình khi chúng được triển khai, cho dù đó là ở dạng đầy đủ hay dạng rút gọn. ®

Nguồn: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Dấu thời gian:

Thêm từ Đăng ký