Raziskovalci AI razkrivajo kritične ranljivosti v večjih LLM

Raziskovalci AI razkrivajo kritične ranljivosti v večjih LLM

Izvorno vozlišče: 2936742
15. oktober 2023 (Nanowerk novice) Veliki jezikovni modeli (LLM), kot sta ChatGPT in Bard, so letos prevzeli svet, pri čemer so podjetja vložila milijone v razvoj teh orodij AI, nekateri vodilni klepetalni roboti AI pa so ocenjeni v milijardah. Ti LLM-ji, ki se vedno pogosteje uporabljajo v klepetalnih robotih z umetno inteligenco, črpajo informacije iz celotnega interneta, da se naučijo in posredujejo odgovore, ki jih zagotovijo na uporabniško določene zahteve, znane kot "pozivi". Vendar pa so računalniški znanstveniki iz varnostnega zagona AI Mindgard in univerze Lancaster v Združenem kraljestvu dokazali, da je mogoče dele teh LLM-jev kopirati v manj kot enem tednu za samo 50 USD, pridobljene informacije pa je mogoče uporabiti za sprožitev ciljnih napadov. . Raziskovalci opozarjajo, da lahko napadalci, ki izkoriščajo te ranljivosti, razkrijejo zasebne zaupne informacije, obidejo zaščitne ograje, zagotovijo napačne odgovore ali izvedejo nadaljnje ciljno usmerjene napade. Podrobno v novem dokumentu (“Model Leeching: An Extraction Attack Targeting LLMs”), ki bo predstavljen na CAMLIS 2023 (konferenca o uporabnem strojnem učenju za informacijsko varnost), raziskovalci kažejo, da je mogoče poceni kopirati pomembne vidike obstoječih LLM, in dokazujejo, da se ranljivosti prenašajo med različnimi modeli. Ta napad, imenovan »model leeching«, deluje tako, da se pogovarja z LLM-ji na tak način – zahteva niz ciljno usmerjenih pozivov – tako da LLM-ji izvabijo pronicljive informacije, ki razkrijejo, kako model deluje. Raziskovalna skupina, ki je svojo študijo osredotočila na ChatGPT-3.5-Turbo, je nato to znanje uporabila za ustvarjanje lastnega modela kopije, ki je bil 100-krat manjši, vendar je posnemal ključne vidike LLM. Raziskovalci so nato lahko uporabili to kopijo modela kot poligon za odkrivanje, kako izkoristiti ranljivosti v ChatGPT brez odkrivanja. Nato so lahko uporabili znanje, pridobljeno iz svojega modela, za napad na ranljivosti v ChatGPT z 11-odstotno višjo stopnjo uspešnosti. Dr. Peter Garraghan z univerze Lancaster, izvršni direktor Mindgarda in glavni raziskovalec raziskave, je dejal: »Kar smo odkrili, je znanstveno fascinantno, a izjemno zaskrbljujoče. To je med prvimi deli, ki empirično dokazujejo, da je mogoče varnostne ranljivosti uspešno prenašati med zaprtokodnimi in odprtokodnimi modeli strojnega učenja, kar je zelo zaskrbljujoče glede na to, koliko se industrija zanaša na javno dostopne modele strojnega učenja, ki gostujejo na mestih, kot je HuggingFace.« Raziskovalci pravijo, da njihovo delo poudarja, da čeprav imajo te zmogljive tehnologije digitalne umetne inteligence jasne uporabe, obstajajo skrite slabosti in morda celo skupne ranljivosti med modeli. Podjetja v celotni panogi trenutno ali se pripravljajo vložiti milijarde v ustvarjanje lastnih LLM-jev za opravljanje širokega nabora nalog, kot so pametni pomočniki. Finančne storitve in velika podjetja sprejemajo te tehnologije, vendar raziskovalci pravijo, da bi te ranljivosti morale biti glavna skrb za vsa podjetja, ki načrtujejo izgradnjo ali uporabo LLM tretjih oseb. Dr Garraghan je dejal: "Čeprav je tehnologija LLM potencialno transformativna, bodo morala podjetja in znanstveniki zelo skrbno razmisliti o razumevanju in merjenju kibernetskih tveganj, povezanih s sprejetjem in uvajanjem LLM."

Časovni žig:

Več od Nanowerk