Дослідники ШІ виявляють критичні вразливості в основних LLM

Дослідники ШІ виявляють критичні вразливості в основних LLM

Вихідний вузол: 2936742
15 жовтня 2023 (Новини Nanowerk) Великі мовні моделі (LLM), такі як ChatGPT і Bard, захопили світ цього року, компанії інвестували мільйони в розробку цих інструментів ШІ, а деякі провідні чат-боти ШІ оцінюються в мільярди. Ці LLM, які все частіше використовуються в чат-ботах штучного інтелекту, збирають всю інформацію в Інтернеті, щоб навчатися та інформувати відповіді, які вони надають на запити користувачів, відомі як «підказки». Однак комп’ютерні вчені зі стартапу Mindgard і Lancaster University у Великобританії продемонстрували, що фрагменти цих LLM можна скопіювати менш ніж за тиждень всього за 50 доларів, а отриману інформацію можна використовувати для цілеспрямованих атак. . Дослідники попереджають, що зловмисники, які використовують ці вразливості, можуть розкрити приватну конфіденційну інформацію, обійти огорожі, надати неправильні відповіді або організувати подальші цілеспрямовані атаки. Детально в новій статті («Модельні п’явки: атака на вилучення, націлена на LLM»), які будуть представлені на CAMLIS 2023 (конференції з прикладного машинного навчання для інформаційної безпеки), дослідники показують, що можна дешево скопіювати важливі аспекти існуючих LLM, і демонструють докази того, що вразливості передаються між різними моделями. Ця атака, яка називається «вилучення моделі», працює, спілкуючись із LLM таким чином – запитуючи у нього набір цільових підказок – щоб LLM виявляли глибоку інформацію, розкриваючи, як працює модель. Дослідницька група, яка зосередила своє дослідження на ChatGPT-3.5-Turbo, потім використала ці знання, щоб створити власну копію моделі, яка була в 100 разів меншою, але повторювала ключові аспекти LLM. Потім дослідники змогли використати цю копію моделі як тестовий полігон, щоб розробити, як використовувати вразливості в ChatGPT без виявлення. Потім вони змогли використати знання, отримані зі своєї моделі, для атаки на вразливості в ChatGPT із збільшенням показника успіху на 11%. Доктор Пітер Гарраган з Ланкастерського університету, генеральний директор Mindgard і головний дослідник дослідження, сказав: «Те, що ми виявили, є науково захоплюючим, але надзвичайно тривожним. Це одна з перших робіт, яка емпірично демонструє, що вразливості безпеки можна успішно передавати між моделями машинного навчання із закритим і відкритим кодом, що викликає занепокоєння, враховуючи, наскільки промисловість покладається на загальнодоступні моделі машинного навчання, розміщені в таких місцях, як HuggingFace». Дослідники кажуть, що їх робота підкреслює, що, хоча ці потужні технології цифрового штучного інтелекту мають чітке застосування, існують приховані недоліки, і навіть можуть бути загальні вразливості в моделях. Підприємства в різних галузях зараз або готуються інвестувати мільярди у створення власних LLM для виконання широкого кола завдань, таких як розумні помічники. Фінансові служби та великі підприємства впроваджують ці технології, але дослідники кажуть, що ці вразливості мають викликати серйозне занепокоєння для всіх компаній, які планують створювати або використовувати сторонні LLM. Доктор Гарраган сказав: «Хоча технологія LLM є потенційно трансформаційною, компаніям і науковцям доведеться дуже ретельно подумати про розуміння та вимірювання кіберризиків, пов’язаних із впровадженням і розгортанням LLM».

Часова мітка:

Більше від Нановерк