Thiết lập tiêu chí khen thưởng cho việc báo cáo lỗi trong sản phẩm AI

Được xuất bản lại bởi Plato

Người theo dõi: 0

Tại Google, chúng tôi duy trì một Chương trình phần thưởng lỗ hổng bảo mật để tôn vinh những đóng góp tiên tiến từ bên ngoài nhằm giải quyết các vấn đề trong các sản phẩm Web thuộc sở hữu của Google và công ty con của Alphabet. Để theo kịp những tiến bộ nhanh chóng trong công nghệ AI và đảm bảo chúng tôi sẵn sàng giải quyết các thách thức bảo mật trong một chịu trách nhiệm Nhân tiện, gần đây chúng tôi đã mở rộng Chương trình Thợ săn lỗi để thúc đẩy việc phát hiện và báo cáo của bên thứ ba về các vấn đề cũng như lỗ hổng cụ thể đối với hệ thống AI của chúng tôi. Việc mở rộng này là một phần trong nỗ lực của chúng tôi nhằm thực hiện cam kết AI tự nguyện mà chúng tôi đã thực hiện tại Nhà Trắng vào tháng 7.

Để giúp cộng đồng bảo mật hiểu rõ hơn về những phát triển này, chúng tôi đã đưa thêm thông tin về các thành phần của chương trình khen thưởng.

Có gì trong phạm vi phần thưởng

Trong gần đây của chúng tôi Báo cáo đội đỏ AI, dựa trên Đội đỏ AI của Google các bài tập, chúng tôi đã xác định các chiến thuật, kỹ thuật và quy trình chung (TTP) mà chúng tôi cho là phù hợp và thực tế nhất cho đối thủ trong thế giới thực để sử dụng để chống lại các hệ thống AI. Bảng sau đây tổng hợp những gì chúng tôi đã học được để giúp cộng đồng nghiên cứu hiểu được tiêu chí của chúng tôi đối với báo cáo lỗi AI và phạm vi chương trình khen thưởng của chúng tôi. Điều quan trọng cần lưu ý là số tiền thưởng phụ thuộc vào mức độ nghiêm trọng của kịch bản tấn công và loại mục tiêu bị ảnh hưởng (truy cập trang quy định của chương trình để biết thêm thông tin về bảng phần thưởng của chúng tôi).

Tấn công nhanh chóng: Tạo ra các lời nhắc đối nghịch cho phép đối thủ ảnh hưởng đến hành vi của mô hình và do đó ảnh hưởng đến đầu ra theo những cách mà ứng dụng không dự định.	Việc tiêm nhắc nhở mà nạn nhân không nhìn thấy được và thay đổi trạng thái tài khoản của nạn nhân hoặc bất kỳ tài sản nào của họ.
	Nhắc nhở tiêm vào bất kỳ công cụ nào sử dụng phản hồi để đưa ra quyết định ảnh hưởng trực tiếp đến người dùng nạn nhân.
	Trích xuất lời nhắc hoặc lời mở đầu trong đó người dùng có thể trích xuất lời nhắc ban đầu được sử dụng để chỉ mô hình khi có thông tin nhạy cảm trong phần mở đầu được trích xuất.
	Sử dụng một sản phẩm để tạo nội dung vi phạm, gây hiểu lầm hoặc sai sự thật trong phiên của chính bạn: ví dụ: “bẻ khóa”. Điều này bao gồm “ảo giác” và những phản ứng không chính xác về mặt thực tế. Các sản phẩm AI tổng hợp của Google đã có kênh báo cáo dành riêng cho các loại vấn đề nội dung này.	Ra khỏi phạm vi
Trích xuất dữ liệu đào tạo: Các cuộc tấn công có thể tái tạo thành công các ví dụ đào tạo nguyên văn có chứa thông tin nhạy cảm. Còn được gọi là suy luận thành viên.	Trích xuất dữ liệu đào tạo để tái tạo lại các mục được sử dụng trong tập dữ liệu đào tạo làm rò rỉ thông tin nhạy cảm, không công khai.
	Trích xuất để tái tạo lại thông tin không nhạy cảm/công khai.	Ra khỏi phạm vi
Thao tác mô hình: Kẻ tấn công có thể ngấm ngầm thay đổi hành vi của một mô hình sao cho chúng có thể kích hoạt các hành vi đối nghịch được xác định trước.	Đầu ra hoặc hành vi bất lợi mà kẻ tấn công có thể kích hoạt một cách đáng tin cậy thông qua đầu vào cụ thể trong mô hình do Google sở hữu và vận hành (“cửa sau”). Chỉ trong phạm vi khi đầu ra của mô hình được sử dụng để thay đổi trạng thái tài khoản hoặc dữ liệu của nạn nhân.
	Các cuộc tấn công trong đó kẻ tấn công thao túng dữ liệu huấn luyện của mô hình để tác động đến đầu ra của mô hình trong phiên của nạn nhân theo sở thích của kẻ tấn công. Chỉ trong phạm vi khi đầu ra của mô hình được sử dụng để thay đổi trạng thái tài khoản hoặc dữ liệu của nạn nhân.
Nhiễu loạn bất lợi: Các đầu vào được cung cấp cho một mô hình dẫn đến kết quả đầu ra xác định nhưng rất bất ngờ từ mô hình.	Các bối cảnh trong đó đối thủ có thể kích hoạt một cách đáng tin cậy việc phân loại sai trong biện pháp kiểm soát bảo mật có thể bị lạm dụng để sử dụng với mục đích xấu hoặc thu lợi từ đối thủ.
	Các bối cảnh trong đó kết quả đầu ra hoặc phân loại không chính xác của mô hình không tạo ra kịch bản tấn công hấp dẫn hoặc đường dẫn khả thi gây tổn hại cho Google hoặc người dùng.	Ra khỏi phạm vi
Trộm cắp/Trộm cắp mô hình: Các mô hình AI thường bao gồm tài sản trí tuệ nhạy cảm, vì vậy chúng tôi đặt ưu tiên cao cho việc bảo vệ những tài sản này. Các cuộc tấn công lọc cho phép kẻ tấn công đánh cắp thông tin chi tiết về một mô hình như kiến trúc hoặc trọng lượng của nó.	Các cuộc tấn công trong đó kiến trúc hoặc trọng lượng chính xác của mô hình bí mật/độc quyền bị trích xuất.
	Các cuộc tấn công trong đó kiến trúc và trọng số không được trích xuất một cách chính xác hoặc khi chúng được trích xuất từ một mô hình không bảo mật.	Ra khỏi phạm vi
Nếu phát hiện thấy lỗ hổng trong một công cụ hỗ trợ AI ngoài những lỗi được liệt kê ở trên, bạn vẫn có thể gửi, miễn là nó đáp ứng các yêu cầu bằng cấp được liệt kê trên trang chương trình của chúng tôi.	Lỗi hoặc hành vi đáp ứng rõ ràng các tiêu chuẩn của chúng tôi về vấn đề bảo mật hoặc lạm dụng hợp lệ.
	Sử dụng sản phẩm AI để làm điều gì đó có khả năng gây hại mà các công cụ khác có thể thực hiện được. Ví dụ: tìm lỗ hổng trong phần mềm nguồn mở (đã có thể sử dụng công khai công cụ phân tích tĩnh) và tạo ra câu trả lời cho một câu hỏi có hại khi câu trả lời đã có sẵn trên mạng.	Ra khỏi phạm vi
	Theo chương trình của chúng tôi, những vấn đề mà chúng tôi đã biết sẽ không đủ điều kiện nhận thưởng.	Ra khỏi phạm vi
	Các vấn đề về bản quyền tiềm ẩn — những phát hiện trong đó sản phẩm trả về nội dung dường như được bảo vệ bản quyền. Các sản phẩm AI tổng hợp của Google đã có kênh báo cáo dành riêng cho các loại vấn đề nội dung này.	Ra khỏi phạm vi

Chúng tôi tin rằng việc mở rộng chương trình thưởng lỗi cho hệ thống AI của chúng tôi sẽ hỗ trợ đổi mới AI có trách nhiệmvà mong muốn được tiếp tục làm việc với cộng đồng nghiên cứu để khám phá và khắc phục các vấn đề về bảo mật cũng như lạm dụng trong các tính năng do AI hỗ trợ. Nếu bạn tìm thấy một vấn đề đủ điều kiện, vui lòng truy cập trang web Thợ săn lỗi của chúng tôi để gửi cho chúng tôi báo cáo lỗi của bạn và — nếu vấn đề được phát hiện là hợp lệ — hãy nhận phần thưởng vì đã giúp chúng tôi giữ an toàn cho người dùng của mình.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Dấu thời gian: 15 Tháng mười hai, 2023

Dấu thời gian: Tháng 14, 2023

Thiết lập tiêu chí khen thưởng cho việc báo cáo lỗi trong sản phẩm AI

Được xuất bản lại bởi Plato

Có gì trong phạm vi phần thưởng

Thêm từ Đọc tối

Accenture và SandboxAQ hợp tác để giúp các tổ chức bảo vệ dữ liệu

Sự thờ ơ là lỗ hổng bảo mật mạng lớn nhất của công ty bạn - Đây là cách để chống lại nó

Hầu hết những kẻ tấn công cần ít hơn 10 giờ để tìm ra điểm yếu

Người khổng lồ Oreo Mondelez giải quyết bộ đồ bảo hiểm NotPetya 'Act of War'

Làm thế nào các nhà bán lẻ có thể được bảo vệ trong thời gian tuyệt vời nhất trong năm

Calamu hợp tác với Wasabi Technologies để cung cấp kho lưu trữ đám mây

Optiv tăng gấp đôi sự hiện diện tại liên bang với việc mua lại ClearShark

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản