I ricercatori sull’intelligenza artificiale espongono le vulnerabilità critiche all’interno dei principali LLM

I ricercatori sull’intelligenza artificiale espongono le vulnerabilità critiche all’interno dei principali LLM

Nodo di origine: 2936742
15 ottobre 2023 (Notizie Nanowerk) I Large Language Models (LLM) come ChatGPT e Bard hanno preso d'assalto il mondo quest'anno, con aziende che investono milioni per sviluppare questi strumenti di intelligenza artificiale e alcuni importanti chatbot di intelligenza artificiale valutati in miliardi. Questi LLM, sempre più utilizzati all'interno dei chatbot basati sull'intelligenza artificiale, raccolgono l'intera Internet di informazioni per apprendere e informare le risposte che forniscono alle richieste specificate dall'utente, note come "prompt". Tuttavia, gli informatici della start-up Mindgard e della Lancaster University nel Regno Unito hanno dimostrato che porzioni di questi LLM possono essere copiate in meno di una settimana per soli 50 dollari e che le informazioni ottenute possono essere utilizzate per lanciare attacchi mirati . I ricercatori avvertono che gli aggressori che sfruttano queste vulnerabilità potrebbero rivelare informazioni private riservate, aggirare i guardrail, fornire risposte errate o organizzare ulteriori attacchi mirati. Dettagliato in un nuovo articolo ("Model Leeching: un attacco di estrazione mirato agli LLM") che sarà presentato alla CAMLIS 2023 (Conference on Applied Machine Learning for Information Security), i ricercatori dimostrano che è possibile copiare a buon mercato aspetti importanti degli LLM esistenti e dimostrano che le vulnerabilità vengono trasferite tra diversi modelli. Questo attacco, chiamato "model leeching", funziona parlando con i LLM in modo tale - chiedendo una serie di suggerimenti mirati - in modo che i LLM ottengano informazioni approfondite che rivelano come funziona il modello. Il gruppo di ricerca, che ha concentrato il proprio studio su ChatGPT-3.5-Turbo, ha quindi utilizzato queste conoscenze per creare il proprio modello di copia, che era 100 volte più piccolo ma replicava gli aspetti chiave del LLM. I ricercatori sono stati quindi in grado di utilizzare questa copia del modello come banco di prova per capire come sfruttare le vulnerabilità in ChatGPT senza essere rilevate. Sono stati quindi in grado di utilizzare le conoscenze raccolte dal loro modello per attaccare le vulnerabilità in ChatGPT con un tasso di successo aumentato dell'11%. Il dottor Peter Garraghan della Lancaster University, amministratore delegato di Mindgard e ricercatore principale della ricerca, ha dichiarato: “Ciò che abbiamo scoperto è scientificamente affascinante, ma estremamente preoccupante. Questo è tra i primissimi lavori a dimostrare empiricamente che le vulnerabilità della sicurezza possono essere trasferite con successo tra modelli di Machine Learning closed source e open source, il che è estremamente preoccupante considerando quanto l’industria si affida a modelli di Machine Learning disponibili al pubblico ospitati in luoghi come HuggingFace”. I ricercatori affermano che il loro lavoro evidenzia che, sebbene queste potenti tecnologie di intelligenza artificiale digitale abbiano usi chiari, esistono debolezze nascoste e potrebbero anche esserci vulnerabilità comuni tra i modelli. Le aziende di tutto il settore stanno attualmente o si preparano a investire miliardi nella creazione dei propri LLM per intraprendere un'ampia gamma di attività come gli assistenti intelligenti. I servizi finanziari e le grandi imprese stanno adottando queste tecnologie, ma i ricercatori affermano che queste vulnerabilità dovrebbero rappresentare una delle principali preoccupazioni per tutte le aziende che intendono costruire o utilizzare LLM di terze parti. Il dottor Garraghan ha affermato: “Sebbene la tecnologia LLM sia potenzialmente trasformativa, sia le aziende che gli scienziati dovranno riflettere molto attentamente sulla comprensione e sulla misurazione dei rischi informatici associati all’adozione e all’implementazione dei LLM”.

Timestamp:

Di più da Nanowerk