مدلهای هوش مصنوعی مولد میتوانند تصاویر را از دادههای آموزشی خود به خاطر بسپارند و احتمالاً به کاربران اجازه میدهند دادههای خصوصی دارای حق چاپ را استخراج کنند. تحقیق.
ابزارهایی مانند DALL-E، Stable Diffusion، و Midjourney بر روی میلیاردها تصویر خراشیده شده از اینترنت، از جمله دادههای محافظت شده توسط حق چاپ مانند آثار هنری و آرمها، آموزش داده میشوند. آنها یاد می گیرند که بازنمایی های بصری اشیا و سبک ها را به زبان طبیعی ترسیم کنند. هنگامی که به آنها توضیح متنی به عنوان ورودی داده می شود، تصویری مطابق با عنوان به عنوان خروجی ایجاد می کنند.
فناوری جدید بحث حقوقی جدیدی را در مورد حق چاپ به راه انداخته است: آیا این ابزارها حقوق مالکیت معنوی را نقض می کنند زیرا آنها تصاویر دارای حق چاپ را بدون اجازه مصرف می کنند؟
پرونده های قضایی بوده است واصل علیه سازندگان محبوب ترین ابزارهای مولد هوش مصنوعی برای نقض حق چاپ. شرکتهایی که مدلهای متن به تصویر میسازند، استدلال میکنند که از آنجایی که نرمافزار آنها تصاویر منحصربهفردی تولید میکند، استفاده آنها از دادههای حق چاپ استفاده منصفانه است. اما هنرمندانی که سبک و کار خود را با این ابزار تقلید کردهاند، معتقدند که از بین رفتهاند.
اکنون تحقیقات انجام شده توسط محققانی که در گوگل، دیپ مایند، دانشگاه کالیفرنیا، برکلی، ETH زوریخ و دانشگاه پرینستون انجام میدهند، نشان میدهد که تصاویر مورد استفاده برای آموزش این مدلها قابل استخراج هستند. مدلهای هوش مصنوعی مولد تصاویر را به خاطر میسپارند و میتوانند کپیهای دقیقی از آنها تولید کنند که نگرانیهای جدیدی را در مورد حق چاپ و حفظ حریم خصوصی ایجاد میکند.
چند نمونه از تصاویری که محققان موفق به استخراج از Stable Diffusion شدند
یکی از نویسندگان این مطالعه گفت: «در یک حمله واقعی، جایی که یک دشمن میخواهد اطلاعات خصوصی را استخراج کند، برچسب یا عنوانی را که برای یک تصویر استفاده شده است حدس میزند. ثبت نام.
"خوشبختانه برای مهاجم، روش ما گاهی اوقات می تواند کار کند حتی اگر حدس کامل نباشد. به عنوان مثال، ما میتوانیم پرتره آن گراهام لوتز را بهجای شرح کامل مجموعه آموزشی («زندگی در نور با آن گراهام لوتز» فقط با نام او به Stable Diffusion استخراج کنیم.
فقط تصاویر به خاطر سپرده شده توسط مدل قابل استخراج هستند و اینکه یک مدل چقدر می تواند داده ها را به خاطر بسپارد به عواملی مانند داده های آموزشی و اندازه آن بستگی دارد. کپیهایی از یک تصویر بیشتر به خاطر سپرده میشوند و مدلهایی که پارامترهای بیشتری دارند، احتمالاً تصاویر را نیز به خاطر میآورند.
این تیم توانست 94 تصویر از 350,000 نمونه مورد استفاده برای آموزش Stable Diffusion و 23 تصویر از 1,000 نمونه از Google استخراج کند. تصویر مدل. برای مقایسه، Stable Diffusion دارای 890 میلیون پارامتر است و بر روی 160 میلیون تصویر آموزش داده شده است، در حالی که Imagen دارای دو میلیارد پارامتر است - مشخص نیست که دقیقاً چند تصویر برای آموزش آن استفاده شده است.
محققان میگویند: «برای انتشار پایدار، متوجه میشویم که بیشتر تصاویر حفظ شده 100 بار یا بیشتر در مجموعه آموزشی تکرار شدهاند، اما برخی از آنها به 10 بار نیز میرسد.» برای مدل Imagen گوگل، که مدلی بزرگتر از Stable Diffusion است و بر روی مجموعه داده های کوچکتری آموزش داده شده است، به نظر می رسد حفظ کردن بسیار زیادتر باشد. در اینجا برخی از تصاویر پرت را می یابیم که فقط یک بار در کل مجموعه آموزشی وجود دارند، اما هنوز قابل استخراج هستند.
آنها کاملاً مطمئن نیستند که چرا مدل های بزرگتر تمایل دارند تصاویر بیشتری را به خاطر بسپارند، اما معتقدند که ممکن است ارتباطی با توانایی ذخیره داده های آموزشی بیشتری در پارامترهای خود داشته باشد.
نرخ به خاطر سپردن برای این مدل ها بسیار پایین است و در واقعیت استخراج تصاویر خسته کننده و مشکل خواهد بود. مهاجمان باید حدس بزنند و دستورات متعددی را امتحان کنند تا مدل را به سمت تولید داده های به خاطر سپرده هدایت کنند. با این حال، این تیم به توسعه دهندگان هشدار می دهد که از آموزش مدل های هوش مصنوعی مولد بر روی داده های حساس خصوصی خودداری کنند.
«اینکه حفظ کردن چقدر بد است به کاربرد مدلهای مولد بستگی دارد. در برنامههای بسیار خصوصی، مانند حوزه پزشکی (مثلاً آموزش عکسبرداری با اشعه ایکس قفسه سینه یا سوابق پزشکی)، حفظ کردن بسیار نامطلوب است، حتی اگر فقط بر بخش بسیار کمی از کاربران تأثیر بگذارد. علاوه بر این، مجموعههای آموزشی مورد استفاده در برنامههای حساس به حریم خصوصی معمولاً کوچکتر از مجموعههایی هستند که برای آموزش مدلهای هنری مولد فعلی استفاده میشوند. بنابراین، ما ممکن است به خاطر بسپاریم، از جمله تصاویری که تکراری نیستند.»
یکی از راه های جلوگیری از استخراج داده ها، کاهش احتمال به خاطر سپردن در مدل ها است. برای مثال، خلاص شدن از شر موارد تکراری در مجموعه داده آموزشی، شانس حفظ و استخراج تصاویر را به حداقل می رساند. Stability AI، خالقان Stable Diffusion، طبق گزارشها، جدیدترین مدل خود را بر روی مجموعه دادهای که دارای تعداد تکراری کمتری است، مستقل از یافتههای محققان آموزش دادهاند.
اکنون که ثابت شده است مدلهای متن به تصویر میتوانند کپیهای دقیقی از تصاویری که روی آنها آموزش دیدهاند تولید کنند، مشخص نیست که چگونه میتواند بر موارد کپی رایت تأثیر بگذارد.
یک استدلال رایج که ما دیده بودیم مردم به صورت آنلاین مطرح میکنند، این بود که «این مدلها هرگز دادههای آموزشی را حفظ نمیکنند». اکنون می دانیم که این به وضوح نادرست است. اما اینکه آیا این واقعاً در بحث حقوقی اهمیت دارد یا نه، قابل بحث است.»
«حداقل در حال حاضر، هر دو طرف در این دعاوی حقایق ملموس تری دارند که می توانند به آنها تکیه کنند: بله، حفظ کردن اتفاق می افتد. اما بسیار نادر است. و به نظر می رسد که عمدتاً برای تصاویر بسیار تکراری اتفاق می افتد." ®
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/
- 000
- 1
- 10
- 100
- a
- قادر
- مطابق
- واقعا
- در برابر
- AI
- اجازه دادن
- و
- کاربرد
- برنامه های کاربردی
- استدلال
- استدلال
- هنر
- هنرمندان
- آثار هنری
- حمله
- بد
- بودن
- باور
- برکلی
- بیلیون
- میلیاردها
- مرز
- هر دو طرف
- بنا
- کالیفرنیا
- موارد
- مرکز
- شانس
- واضح
- به وضوح
- مشترک
- شرکت
- مقایسه
- نگرانی ها
- به این نتیجه رسیدند
- نسخه
- حق چاپ
- میتوانست
- سازندگان
- جاری
- دل-ه
- داده ها
- مناظره
- کاهش
- Deepmind
- بستگی دارد
- شرح
- توسعه دهندگان
- انتشار
- دامنه
- نسخه های تکراری
- تمام
- ETH
- ETH زوریخ
- اتر (ETH)
- حتی
- کاملا
- مثال
- مثال ها
- عصاره
- استخراج
- عوامل
- منصفانه
- کمی از
- پیدا کردن
- خوشبختانه
- کسر
- مکرر
- تازه
- از جانب
- کامل
- بعلاوه
- تولید می کنند
- تولید می کند
- مولد
- مولد
- هوش مصنوعی مولد
- گرفتن
- داده
- گوگل
- رخ دادن
- اتفاق می افتد
- اینجا کلیک نمایید
- خیلی
- چگونه
- HTTPS
- تصویر
- تصاویر
- تأثیر
- in
- از جمله
- به طور مستقل
- اطلاعات
- ورودی
- در عوض
- فکری
- مالکیت معنوی
- اینترنت
- IT
- دانستن
- برچسب
- زبان
- بزرگتر
- پرونده های حقوقی
- رهبری
- یاد گرفتن
- رهبری
- قانونی
- سبک
- احتمالا
- زندگی
- خیلی
- کم
- ساخت
- سازندگان
- اداره می شود
- بسیاری
- نقشه
- مطابق
- مسائل
- پزشکی
- روش
- میانه سفر
- قدرت
- میلیون
- مدل
- مدل
- بیش
- اکثر
- محبوبترین
- نام
- طبیعی
- زبان طبیعی
- جدید
- تازه ترین
- متعدد
- اشیاء
- آنلاین
- پارامترهای
- مردم
- کامل
- اجازه
- افلاطون
- هوش داده افلاطون
- PlatoData
- محبوب
- تصویر
- ممکن
- در حال حاضر
- زیبا
- جلوگیری از
- پرینستون
- خلوت
- خصوصی
- اطلاعات خصوصی
- ویژگی
- حقوق مالکیت
- محفوظ
- اثبات شده
- بالا بردن
- نادر
- نرخ
- RE
- واقعی
- واقعیت
- سوابق
- به یاد داشته باشید
- تحقیق
- محققان
- خلاص شدن از شر
- حقوق
- پاره شد
- سعید
- همان
- به نظر می رسد
- حساس
- تنظیم
- مجموعه
- طرف
- پس از
- تنها
- اندازه
- کوچک
- کوچکتر
- نرم افزار
- برخی از
- چیزی
- ثبات
- پایدار
- هنوز
- opbevare
- مهاجرت تحصیلی
- چنین
- تیم
- پیشرفته
- La
- شان
- از این رو
- زمان
- بار
- به
- هم
- ابزار
- قطار
- آموزش دیده
- آموزش
- منحصر به فرد
- دانشگاه
- دانشگاه کالیفرنیا
- us
- استفاده کنید
- کاربران
- معمولا
- نوع دیگر
- Ve
- هشدار
- چه
- که
- در حین
- WHO
- بدون
- مهاجرت کاری
- کارگر
- خواهد بود
- زفیرنت
- زوریخ