It Is Possible To Extract Copies Of Images Used To Train Generative AI Models

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

जेनेरिक एआई मॉडल अपने प्रशिक्षण डेटा से छवियों को याद कर सकते हैं, संभवतः उपयोगकर्ताओं को निजी कॉपीराइट डेटा निकालने की अनुमति दे सकते हैं अनुसंधान.

DALL-E, स्टेबल डिफ्यूजन और मिडजर्नी जैसे टूल को इंटरनेट से निकाली गई अरबों छवियों पर प्रशिक्षित किया जाता है, जिसमें कलाकृति और लोगो जैसे कॉपीराइट द्वारा संरक्षित डेटा भी शामिल है। वे वस्तुओं और शैलियों के दृश्य प्रतिनिधित्व को प्राकृतिक भाषा में मैप करना सीखते हैं। जब उन्हें इनपुट के रूप में एक टेक्स्ट विवरण दिया जाता है, तो वे आउटपुट के रूप में कैप्शन से मेल खाने वाली एक छवि उत्पन्न करते हैं।

नई तकनीक ने कॉपीराइट पर एक नई कानूनी बहस छेड़ दी है: क्या ये उपकरण बौद्धिक संपदा अधिकारों का उल्लंघन करते हैं क्योंकि उन्होंने बिना अनुमति के कॉपीराइट वाली छवियों का उपयोग किया है?

मुक़दमे हुए हैं दायर कॉपीराइट का उल्लंघन करने के लिए सबसे लोकप्रिय जेनरेटिव एआई टूल के निर्माताओं के खिलाफ। टेक्स्ट-टू-इमेज मॉडल बनाने वाली कंपनियों का तर्क है कि चूंकि उनका सॉफ़्टवेयर अद्वितीय छवियां उत्पन्न करता है, इसलिए कॉपीराइट डेटा का उनका उपयोग उचित उपयोग है। लेकिन जिन कलाकारों ने इन उपकरणों द्वारा अपनी शैलियों और कार्यों की नकल देखी है, उनका मानना है कि उन्हें धोखा दिया गया है।

अब Google, डीपमाइंड, कैलिफोर्निया विश्वविद्यालय, बर्कले, ETH ज्यूरिख और प्रिंसटन विश्वविद्यालय में काम करने वाले शोधकर्ताओं के नेतृत्व में किए गए शोध से पता चलता है कि इन मॉडलों को प्रशिक्षित करने के लिए उपयोग की जाने वाली छवियां निकाली जा सकती हैं। जेनरेटिव एआई मॉडल छवियों को याद रखते हैं और उनकी सटीक प्रतियां तैयार कर सकते हैं, जिससे नई कॉपीराइट और गोपनीयता संबंधी चिंताएं पैदा होती हैं।

छवियों के कुछ उदाहरण शोधकर्ता स्टेबल डिफ्यूजन से निकालने में कामयाब रहे

अध्ययन के सह-लेखकों ने बताया, "वास्तविक हमले में, जहां एक प्रतिद्वंद्वी निजी जानकारी निकालना चाहता है, वे उस लेबल या कैप्शन का अनुमान लगाएंगे जो एक छवि के लिए इस्तेमाल किया गया था।" रजिस्टर.

“हमलावर के लिए सौभाग्य से, हमारा तरीका कभी-कभी काम कर सकता है, भले ही अनुमान सही न हो। उदाहरण के लिए, हम प्रशिक्षण सेट से पूर्ण कैप्शन ("एन ग्राहम लोट्ज़ के साथ प्रकाश में रहना") के बजाय, केवल उसके नाम के साथ स्टेबल डिफ्यूजन का संकेत देकर एन ग्राहम लोट्ज़ का चित्र निकाल सकते हैं।

केवल मॉडल द्वारा याद की गई छवियां ही निकाली जा सकती हैं, और कोई मॉडल कितना डेटा याद रख सकता है यह उसके प्रशिक्षण डेटा और आकार जैसे कारकों पर निर्भर करता है। एक ही छवि की प्रतियां याद रखने की अधिक संभावना होती है, और अधिक पैरामीटर वाले मॉडल भी छवियों को याद रखने में सक्षम होने की अधिक संभावना रखते हैं।

टीम स्थिर प्रसार को प्रशिक्षित करने के लिए उपयोग किए गए 94 उदाहरणों में से 350,000 छवियां निकालने में सक्षम थी, और Google के 23 उदाहरणों में से 1,000 छवियां निकालने में सक्षम थी। छवि नमूना। तुलना के लिए, स्टेबल डिफ्यूजन में 890 मिलियन पैरामीटर हैं और इसे 160 मिलियन छवियों पर प्रशिक्षित किया गया था, जबकि इमेजन में दो बिलियन पैरामीटर हैं - यह स्पष्ट नहीं है कि इसे सटीक रूप से प्रशिक्षित करने के लिए कितनी छवियों का उपयोग किया गया था।

शोधकर्ताओं ने कहा, "स्थिर प्रसार के लिए, हमने पाया कि अधिकांश याद की गई छवियों को प्रशिक्षण सेट में 100 बार या उससे अधिक बार दोहराया गया था, लेकिन कुछ को 10 बार भी कम किया गया था।" “Google के इमेजेन मॉडल के लिए, जो स्टेबल डिफ्यूज़न से बड़ा मॉडल है और छोटे डेटासेट पर प्रशिक्षित है, याद रखना अधिक बार-बार प्रतीत होता है। यहां हमें कुछ बाहरी छवियां मिलती हैं जो पूरे प्रशिक्षण सेट में केवल एक बार मौजूद होती हैं, फिर भी निकालने योग्य होती हैं।

वे निश्चित नहीं हैं कि बड़े मॉडल अधिक छवियों को याद रखने की प्रवृत्ति क्यों रखते हैं, लेकिन उनका मानना है कि इसका उनके प्रशिक्षण डेटा को इसके मापदंडों में अधिक संग्रहीत करने में सक्षम होने से कुछ लेना-देना हो सकता है।

इन मॉडलों के लिए याद रखने की दर बहुत कम है, और वास्तव में छवियां निकालना कठिन और मुश्किल होगा। याद किए गए डेटा को उत्पन्न करने में मॉडल का नेतृत्व करने के लिए हमलावरों को अनुमान लगाना होगा और कई संकेतों का प्रयास करना होगा। फिर भी, टीम डेवलपर्स को निजी संवेदनशील डेटा पर जेनरेटर एआई मॉडल का प्रशिक्षण देने से परहेज करने की चेतावनी दे रही है।

“याद रखना कितना ख़राब है यह जनरेटिव मॉडल के अनुप्रयोग पर निर्भर करता है। अत्यधिक निजी अनुप्रयोगों में, जैसे कि चिकित्सा क्षेत्र में (उदाहरण के लिए छाती के एक्स-रे या मेडिकल रिकॉर्ड पर प्रशिक्षण), याद रखना अत्यधिक अवांछनीय है, भले ही यह केवल उपयोगकर्ताओं के एक बहुत छोटे हिस्से को प्रभावित करता हो। इसके अलावा, गोपनीयता संवेदनशील अनुप्रयोगों में उपयोग किए जाने वाले प्रशिक्षण सेट आमतौर पर वर्तमान जेनरेटिव आर्ट मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले सेट से छोटे होते हैं। इसलिए, हम बहुत अधिक स्मरणशक्ति देख सकते हैं, जिसमें वे छवियां भी शामिल हैं जिनकी नकल नहीं की गई है,'' उन्होंने हमें बताया।

डेटा निष्कर्षण को रोकने का एक तरीका मॉडलों में याद रखने की संभावना को कम करना है। उदाहरण के लिए, प्रशिक्षण डेटासेट में डुप्लिकेट से छुटकारा पाने से छवियों को याद रखने और निकालने की संभावना कम हो जाएगी। स्टेबिलिटी एआई, स्टेबल डिफ्यूजन के निर्माता, ने कथित तौर पर शोधकर्ताओं के निष्कर्षों से स्वतंत्र रूप से कम डुप्लिकेट वाले डेटासेट पर अपने नवीनतम मॉडल को प्रशिक्षित किया है।

अब जब यह सिद्ध हो गया है कि टेक्स्ट-टू-इमेज मॉडल उन छवियों की सटीक प्रतियां उत्पन्न कर सकते हैं जिन पर उन्हें प्रशिक्षित किया गया था, तो यह स्पष्ट नहीं है कि यह कॉपीराइट मामलों को कैसे प्रभावित कर सकता है।

“एक सामान्य तर्क जो हमने लोगों को ऑनलाइन बनाते देखा था, वह कुछ प्रकार का था 'ये मॉडल कभी भी प्रशिक्षण डेटा को याद नहीं रखते हैं।' अब हम जानते हैं कि यह स्पष्ट रूप से झूठ है। लेकिन क्या यह वास्तव में कानूनी बहस में मायने रखता है या नहीं, यह भी बहस का विषय है, ”शोधकर्ताओं ने निष्कर्ष निकाला।

“कम से कम अब, इन मुकदमों में दोनों पक्षों के पास कुछ और ठोस तथ्य हैं जिन पर वे भरोसा कर सकते हैं: हाँ, याद रखना होता है; लेकिन यह बहुत दुर्लभ है; और ऐसा मुख्य रूप से अत्यधिक डुप्लिकेट की गई छवियों के लिए होता है। ®

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/

समय टिकट: फ़रवरी 6, 2023

समय टिकट: दिसम्बर 8, 2023

जनरेटिव एआई मॉडल को प्रशिक्षित करने के लिए उपयोग की जाने वाली छवियों की प्रतियां निकालना संभव है

प्लेटो द्वारा पुनर्प्रकाशित

से अधिक रजिस्टर

ध्वनिकी में मशीन लर्निंग रिसर्च मल्टीमॉडल मेटावर्स खोल सकता है

GitHub Copilot CompSci प्रोग्रामिंग अभ्यासों को धोखा देने के लिए एकदम सही हो सकता है

एनवीडिया ने अभी-अभी एआई पर हमला किया है - बाकी सभी लोग कहां हैं?

विशेषज्ञ का कहना है कि एआई 3 साल के भीतर जैविक हथियार बनाने में मदद करेगा

वाह, तो उन्होंने वास्तव में AI को F-16 फाइटर जेट उड़ाने दिया

एलएलएम में उछाल के बावजूद एजीआई एक दूर का सपना बना हुआ है

आर्टिफिशियल इंटेलिजेंस के युग में साइबर लचीलापन

टिकाऊ एआई/एमएल में सीपीयू की भूमिका

चैटजीपीटी व्हार्टन एमबीए, मेडिकल परीक्षाओं के माध्यम से अपने तरीके से बात करता है

GenAI के लिए एक अनुकूलित दृष्टिकोण

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा