Badacze sztucznej inteligencji ujawniają krytyczne luki w głównych LLM

Badacze sztucznej inteligencji ujawniają krytyczne luki w głównych LLM

Węzeł źródłowy: 2936742
15 paź 2023 (Wiadomości Nanowerk) Modele wielkojęzyczne (LLM), takie jak ChatGPT i Bard, szturmem podbiły w tym roku świat, a firmy inwestują miliony w rozwój tych narzędzi sztucznej inteligencji, a niektóre z wiodących chatbotów AI są wyceniane na miliardy. Te LLM, które są coraz częściej wykorzystywane w chatbotach AI, przeszukują cały Internet informacji, aby uczyć się i informować o odpowiedziach, których udzielają na żądania określone przez użytkownika, tzw. „podpowiedzi”. Jednak informatycy ze start-upu Mindgard zajmującego się bezpieczeństwem sztucznej inteligencji i Uniwersytetu Lancaster w Wielkiej Brytanii wykazali, że fragmenty tych LLM można skopiować w niecały tydzień za jedyne 50 dolarów, a uzyskane informacje można wykorzystać do przeprowadzania ataków ukierunkowanych . Badacze ostrzegają, że osoby atakujące wykorzystujące te luki mogą ujawnić prywatne poufne informacje, ominąć bariery ochronne, udzielić błędnych odpowiedzi lub przeprowadzić dalsze ataki ukierunkowane. Szczegóły w nowym artykule („Modelowe wysysanie: atak ekstrakcyjny ukierunkowany na LLM”), który zostanie zaprezentowany na konferencji CAMLIS 2023 (Konferencja na temat stosowanego uczenia maszynowego na rzecz bezpieczeństwa informacji), badacze pokazują, że możliwe jest tanie kopiowanie ważnych aspektów istniejących LLM, a także przedstawiają dowody na przenoszenie luk w zabezpieczeniach między różnymi modelami. Atak ten, nazywany „wysysaniem modeli”, polega na rozmowie z LLM w taki sposób – zadając mu zestaw ukierunkowanych podpowiedzi – tak aby LLM uzyskał wnikliwe informacje ujawniające, jak działa model. Zespół badawczy, który skoncentrował swoje badania na ChatGPT-3.5-Turbo, następnie wykorzystał tę wiedzę do stworzenia własnego modelu kopii, który był 100 razy mniejszy, ale odzwierciedlał kluczowe aspekty LLM. Badacze mogli następnie wykorzystać tę kopię modelu jako poligon doświadczalny do ustalenia, jak wykorzystać luki w zabezpieczeniach ChatGPT bez wykrycia. Następnie byli w stanie wykorzystać wiedzę zdobytą na podstawie swojego modelu do zaatakowania luk w zabezpieczeniach ChatGPT ze wskaźnikiem skuteczności zwiększonym o 11%. Doktor Peter Garraghan z Uniwersytetu w Lancaster, dyrektor generalny Mindgard i główny badacz badania, powiedział: „To, co odkryliśmy, jest fascynujące z naukowego punktu widzenia, ale niezwykle niepokojące. Jest to jedna z pierwszych prac, które empirycznie wykazały, że luki w zabezpieczeniach można z powodzeniem przenosić między modelami uczenia maszynowego o zamkniętym i otwartym kodzie źródłowym, co jest niezwykle niepokojące, biorąc pod uwagę, jak bardzo branża opiera się na publicznie dostępnych modelach uczenia maszynowego hostowanych w miejscach takich jak HuggingFace. Naukowcy twierdzą, że ich praca podkreśla, że ​​chociaż te potężne technologie cyfrowej sztucznej inteligencji mają jasne zastosowania, istnieją ukryte słabości, a nawet mogą występować wspólne luki w modelach. Firmy z różnych branż są obecnie lub przygotowują się do zainwestowania miliardów w tworzenie własnych LLM, które będą wykonywać szeroki zakres zadań, takich jak inteligentni asystenci. Usługi finansowe i duże przedsiębiorstwa wdrażają te technologie, ale badacze twierdzą, że te luki powinny stanowić poważny problem dla wszystkich firm planujących budowę lub korzystanie z rozwiązań LLM stron trzecich. Dr Garraghan powiedział: „Chociaż technologia LLM ma potencjał transformacyjny, zarówno firmy, jak i naukowcy będą musieli bardzo dokładnie przemyśleć zrozumienie i pomiar zagrożeń cybernetycznych związanych z przyjęciem i wdrażaniem LLM”.

Znak czasu:

Więcej z Nanowerk