محققان هوش مصنوعی آسیب‌پذیری‌های مهم را در LLM‌های اصلی آشکار می‌کنند

محققان هوش مصنوعی آسیب‌پذیری‌های مهم را در LLM‌های اصلی آشکار می‌کنند

گره منبع: 2936742
15 اکتبر 2023 (اخبار نانوورک) مدل‌های زبان بزرگ (LLM) مانند ChatGPT و Bard امسال جهان را تحت تأثیر قرار داده‌اند، شرکت‌هایی که میلیون‌ها دلار برای توسعه این ابزارهای هوش مصنوعی سرمایه‌گذاری کرده‌اند و برخی از چت‌ربات‌های پیشرو هوش مصنوعی میلیاردها ارزش دارند. این LLM ها که به طور فزاینده ای در چت ربات های هوش مصنوعی مورد استفاده قرار می گیرند، کل اینترنت اطلاعات را برای یادگیری و اطلاع رسانی پاسخ هایی که به درخواست های مشخص شده توسط کاربر ارائه می دهند، موسوم به "اعلام" می خراشند. با این حال، دانشمندان کامپیوتر از استارت‌آپ امنیت هوش مصنوعی مایندگارد و دانشگاه لنکستر در بریتانیا نشان داده‌اند که تکه‌هایی از این LLM‌ها را می‌توان در کمتر از یک هفته با قیمتی کمتر از 50 دلار کپی کرد و اطلاعات به‌دست‌آمده را می‌توان برای انجام حملات هدفمند مورد استفاده قرار داد. . محققان هشدار می‌دهند که مهاجمانی که از این آسیب‌پذیری‌ها سوءاستفاده می‌کنند، می‌توانند اطلاعات محرمانه خصوصی را فاش کنند، نرده‌های محافظ را دور بزنند، پاسخ‌های نادرست ارائه دهند یا حملات هدفمند بیشتری را انجام دهند. مشروح در مقاله جدید (“Model Leeching: An Extraction Attack Targeting LLMs”) که در CAMLIS 2023 (کنفرانس یادگیری ماشین کاربردی برای امنیت اطلاعات) ارائه می شود، محققان نشان می دهند که امکان کپی برداری از جنبه های مهم LLM های موجود به صورت ارزان وجود دارد و آنها شواهدی از انتقال آسیب پذیری ها بین مدل های مختلف نشان می دهند. این حمله که «زالوگیری مدل» نامیده می‌شود، با صحبت کردن با LLM‌ها به گونه‌ای عمل می‌کند – از آن درخواست مجموعه‌ای از اعلان‌های هدفمند – به طوری که LLM‌ها اطلاعات دقیقی را استخراج می‌کنند که نشان می‌دهد مدل چگونه کار می‌کند. تیم تحقیقاتی که مطالعه خود را روی ChatGPT-3.5-Turbo متمرکز کردند، سپس از این دانش برای ایجاد مدل کپی خود استفاده کردند که 100 برابر کوچکتر بود اما جنبه های کلیدی LLM را تکرار می کرد. سپس محققان توانستند از این کپی مدل به عنوان یک زمین آزمایشی برای بررسی نحوه بهره برداری از آسیب پذیری ها در ChatGPT بدون شناسایی استفاده کنند. آنها سپس توانستند از دانش به دست آمده از مدل خود برای حمله به آسیب‌پذیری‌ها در ChatGPT با نرخ موفقیت ۱۱ درصدی استفاده کنند. دکتر پیتر گاراگان از دانشگاه لنکستر، مدیر عامل مایندگارد و محقق اصلی این تحقیق گفت: «آنچه ما کشف کردیم از نظر علمی جذاب، اما بسیار نگران کننده است. این یکی از اولین کارهایی است که به طور تجربی نشان می‌دهد که آسیب‌پذیری‌های امنیتی را می‌توان با موفقیت بین مدل‌های یادگیری ماشین منبع بسته و منبع باز منتقل کرد، که با توجه به اینکه صنعت چقدر به مدل‌های یادگیری ماشینی در دسترس عموم که در مکان‌هایی مانند HuggingFace میزبانی می‌شوند، بسیار نگران‌کننده است. محققان می‌گویند کارشان نشان می‌دهد که اگرچه این فناوری‌های قدرتمند هوش مصنوعی دیجیتال کاربردهای واضحی دارند، اما ضعف‌های پنهانی وجود دارد و حتی ممکن است آسیب‌پذیری‌های مشترکی در بین مدل‌ها وجود داشته باشد. کسب‌وکارها در سراسر صنعت در حال حاضر یا در حال آماده شدن برای سرمایه‌گذاری میلیاردها دلار برای ایجاد LLM خود هستند تا طیف وسیعی از وظایف مانند دستیاران هوشمند را بر عهده بگیرند. خدمات مالی و شرکت‌های بزرگ این فناوری‌ها را به کار می‌گیرند، اما محققان می‌گویند که این آسیب‌پذیری‌ها باید یک نگرانی اصلی برای همه کسب‌وکارهایی باشد که در حال برنامه‌ریزی برای ساخت یا استفاده از LLM‌های شخص ثالث هستند. دکتر Garraghan گفت: «در حالی که فناوری LLM به طور بالقوه تحول آفرین است، کسب و کارها و دانشمندان به طور یکسان باید در درک و اندازه گیری خطرات سایبری مرتبط با پذیرش و استقرار LLM بسیار دقیق فکر کنند.»

تمبر زمان:

بیشتر از نانورک