โมเดล AI เจนเนอเรชันสามารถจดจำรูปภาพจากข้อมูลการฝึกได้ ซึ่งอาจทำให้ผู้ใช้สามารถดึงข้อมูลส่วนตัวที่มีลิขสิทธิ์ได้ การวิจัย.
เครื่องมือต่างๆ เช่น DALL-E, Stable Diffusion และ Midjourney ได้รับการฝึกอบรมเกี่ยวกับภาพหลายพันล้านภาพที่คัดลอกมาจากอินเทอร์เน็ต รวมถึงข้อมูลที่ได้รับการคุ้มครองโดยลิขสิทธิ์ เช่น งานศิลปะและโลโก้ พวกเขาเรียนรู้ที่จะจับคู่การแสดงภาพของวัตถุและสไตล์กับภาษาธรรมชาติ เมื่อพวกเขาได้รับคำอธิบายข้อความเป็นอินพุต พวกเขาจะสร้างภาพที่ตรงกับคำบรรยายเป็นเอาต์พุต
เทคโนโลยีใหม่นี้ก่อให้เกิดการถกเถียงทางกฎหมายครั้งใหม่เกี่ยวกับลิขสิทธิ์: เครื่องมือเหล่านี้ละเมิดสิทธิ์ในทรัพย์สินทางปัญญาหรือไม่ เนื่องจากพวกเขานำเข้าภาพที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาต
คดีความได้รับการ ยื่น ต่อต้านผู้ผลิตเครื่องมือสร้าง AI ที่ได้รับความนิยมสูงสุดสำหรับการละเมิดลิขสิทธิ์ บริษัทต่างๆ ที่สร้างโมเดลข้อความเป็นรูปภาพให้เหตุผลว่าเนื่องจากซอฟต์แวร์ของพวกเขาสร้างรูปภาพที่ไม่ซ้ำใคร การใช้ข้อมูลลิขสิทธิ์ของพวกเขาจึงถือเป็นการใช้งานโดยชอบธรรม แต่ศิลปินที่ได้เห็นสไตล์และผลงานของพวกเขาที่เลียนแบบโดยเครื่องมือเหล่านี้เชื่อว่าพวกเขาถูกหลอก
ขณะนี้การวิจัยที่นำโดยนักวิจัยที่ทำงานที่ Google, DeepMind, University of California, Berkeley, ETH Zurich และ Princeton University แสดงให้เห็นว่าสามารถแยกรูปภาพที่ใช้ในการฝึกโมเดลเหล่านี้ได้ โมเดล AI กำเนิดจะจดจำภาพและสามารถสร้างสำเนาที่แม่นยำได้ ทำให้เกิดข้อกังวลใหม่เกี่ยวกับลิขสิทธิ์และความเป็นส่วนตัว
ตัวอย่างรูปภาพบางส่วนที่นักวิจัยดึงออกมาจาก Stable Diffusion
“ในการโจมตีจริง เมื่อฝ่ายตรงข้ามต้องการดึงข้อมูลส่วนตัว พวกเขาจะเดาฉลากหรือคำอธิบายภาพที่ใช้สำหรับรูปภาพ” ผู้เขียนร่วมของการศึกษากล่าว ลงทะเบียน.
“โชคดีสำหรับผู้โจมตี บางครั้งวิธีการของเราอาจได้ผลแม้ว่าการคาดเดาจะไม่สมบูรณ์แบบก็ตาม ตัวอย่างเช่น เราสามารถแยกภาพเหมือนของแอน เกรแฮม ลอตซ์โดยเพียงแค่บอกชื่อของเธอที่ Stable Diffusion แทนคำบรรยายแบบเต็มจากชุดการฝึก (“Living in the light with Ann Graham Lotz”)
สามารถแยกเฉพาะรูปภาพที่โมเดลจดจำได้ และจำนวนโมเดลที่สามารถจดจำข้อมูลได้จะแตกต่างกันไปตามปัจจัยต่างๆ เช่น ข้อมูลการฝึกและขนาดของโมเดล สำเนาของรูปภาพเดียวกันมีแนวโน้มที่จะถูกจดจำ และโมเดลที่มีพารามิเตอร์มากกว่าก็มีแนวโน้มที่จะสามารถจดจำรูปภาพได้เช่นกัน
ทีมงานสามารถดึงภาพ 94 ภาพจาก 350,000 ตัวอย่างที่ใช้ในการฝึกการแพร่กระจายแบบเสถียร และ 23 ภาพจาก 1,000 ตัวอย่างจาก Google ภาพ แบบอย่าง. สำหรับการเปรียบเทียบ Stable Diffusion มีพารามิเตอร์ 890 ล้านพารามิเตอร์ และได้รับการฝึกฝนบนรูปภาพ 160 ล้านรูปภาพ ในขณะที่ Imagen มีพารามิเตอร์ XNUMX พันล้านพารามิเตอร์ ซึ่งไม่ชัดเจนว่ารูปภาพจำนวนเท่าใดที่ใช้ในการฝึกอย่างแน่ชัด
“สำหรับการแพร่กระจายที่เสถียร เราพบว่าภาพที่จดจำได้ส่วนใหญ่ทำซ้ำ 100 ครั้งหรือมากกว่านั้นในชุดการฝึก แต่บางภาพก็น้อยถึง 10 ครั้ง” นักวิจัยกล่าว “สำหรับโมเดล Imagen ของ Google ซึ่งเป็นโมเดลที่ใหญ่กว่า Stable Diffusion และฝึกในชุดข้อมูลที่เล็กกว่า การท่องจำดูเหมือนจะเกิดขึ้นบ่อยกว่ามาก ที่นี่เราพบภาพที่ผิดเพี้ยนซึ่งปรากฏเพียงครั้งเดียวในชุดการฝึกทั้งหมด แต่ยังสามารถดึงออกมาได้”
พวกเขาไม่ค่อยแน่ใจว่าเหตุใดโมเดลขนาดใหญ่จึงมักจะจดจำรูปภาพได้มากกว่า แต่เชื่อว่าอาจมีบางอย่างที่เกี่ยวข้องกับความสามารถในการเก็บข้อมูลการฝึกอบรมในพารามิเตอร์ได้มากขึ้น
อัตราการท่องจำสำหรับโมเดลเหล่านี้ค่อนข้างต่ำ และในความเป็นจริงแล้ว การดึงภาพออกมาอาจเป็นเรื่องที่น่าเบื่อและยุ่งยาก ผู้โจมตีจะต้องเดาและพยายามแจ้งหลายครั้งเพื่อนำโมเดลไปสู่การสร้างข้อมูลที่จดจำ ถึงกระนั้น ทีมงานก็เตือนนักพัฒนาให้ละเว้นจากการฝึกอบรมโมเดล AI เชิงกำเนิดเกี่ยวกับข้อมูลที่ละเอียดอ่อนส่วนตัว
“การท่องจำที่ไม่ดีนั้นขึ้นอยู่กับการประยุกต์ใช้แบบจำลองกำเนิด ในการใช้งานที่มีความเป็นส่วนตัวสูง เช่น ในโดเมนทางการแพทย์ (เช่น การฝึกอบรมเกี่ยวกับเอกซเรย์ทรวงอกหรือเวชระเบียน) การท่องจำเป็นสิ่งที่ไม่พึงปรารถนาอย่างยิ่ง แม้ว่าจะมีผลกับผู้ใช้เพียงเล็กน้อยก็ตาม นอกจากนี้ ชุดการฝึกที่ใช้ในแอปพลิเคชันที่ไวต่อความเป็นส่วนตัวมักมีขนาดเล็กกว่าชุดที่ใช้ในการฝึกโมเดลเจนเนอเรทีฟอาร์ตในปัจจุบัน ดังนั้นเราอาจเห็นการท่องจำมากขึ้น รวมถึงรูปภาพที่ไม่ซ้ำด้วย” พวกเขาบอกกับเรา
วิธีหนึ่งในการป้องกันการดึงข้อมูลคือลดโอกาสการท่องจำในแบบจำลอง ตัวอย่างเช่น การกำจัดข้อมูลที่ซ้ำกันในชุดข้อมูลการฝึกอบรมจะลดโอกาสที่รูปภาพจะถูกจดจำและแยกออก Stability AI ผู้สร้าง Stable Diffusion มีรายงานว่าได้ฝึกโมเดลใหม่ล่าสุดบนชุดข้อมูลที่มีข้อมูลที่ซ้ำกันน้อยกว่าโดยไม่ขึ้นกับผลการวิจัยของนักวิจัย
ขณะนี้ได้รับการพิสูจน์แล้วว่าโมเดลแปลงข้อความเป็นรูปภาพสามารถสร้างสำเนาของรูปภาพที่ฝึกฝนมาได้อย่างถูกต้อง จึงไม่ชัดเจนว่าสิ่งนี้จะส่งผลกระทบต่อกรณีลิขสิทธิ์ได้อย่างไร
“ข้อโต้แย้งทั่วไปที่เราเห็นผู้คนพูดกันทางออนไลน์คือ 'โมเดลเหล่านี้ไม่เคยจดจำข้อมูลการฝึกอบรม' ตอนนี้เรารู้แล้วว่านี่เป็นเท็จอย่างชัดเจน แต่ไม่ว่าสิ่งนี้จะสำคัญหรือไม่ในการอภิปรายทางกฎหมายก็ขึ้นอยู่กับการถกเถียงเช่นกัน” นักวิจัยสรุป
“อย่างน้อยตอนนี้ ทั้งสองฝ่ายในคดีเหล่านี้มีข้อเท็จจริงที่จับต้องได้มากขึ้นที่พวกเขาสามารถพึ่งพาได้: ใช่ การท่องจำเกิดขึ้น แต่มันหายากมาก และส่วนใหญ่ดูเหมือนว่าจะเกิดขึ้นกับรูปภาพที่มีการทำซ้ำสูง” ®
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/
- 000
- 1
- 10
- 100
- a
- สามารถ
- ตาม
- จริง
- กับ
- AI
- การอนุญาต
- และ
- การใช้งาน
- การใช้งาน
- เถียง
- อาร์กิวเมนต์
- ศิลปะ
- ศิลปิน
- งานศิลปะ
- โจมตี
- ไม่ดี
- กำลัง
- เชื่อ
- เบิร์กลีย์
- พันล้าน
- พันล้าน
- ชายแดน
- ทั้งสองด้าน
- การก่อสร้าง
- แคลิฟอร์เนีย
- กรณี
- ศูนย์
- โอกาส
- ชัดเจน
- อย่างเห็นได้ชัด
- ร่วมกัน
- บริษัท
- การเปรียบเทียบ
- ความกังวลเกี่ยวกับ
- สรุป
- สำเนา
- ลิขสิทธิ์
- ได้
- ผู้สร้าง
- ปัจจุบัน
- ดัล-อี
- ข้อมูล
- การอภิปราย
- ลดลง
- Deepmind
- ขึ้นอยู่กับ
- ลักษณะ
- นักพัฒนา
- การจัดจำหน่าย
- โดเมน
- ที่ซ้ำกัน
- ทั้งหมด
- ETH
- ผลประโยชน์ทับซ้อนซูริค
- อีเธอร์ (ETH)
- แม้
- เผง
- ตัวอย่าง
- ตัวอย่าง
- สารสกัด
- การสกัด
- ปัจจัย
- ธรรม
- สองสาม
- หา
- โชคดี
- เศษ
- บ่อย
- สด
- ราคาเริ่มต้นที่
- เต็ม
- นอกจากนี้
- สร้าง
- สร้าง
- การสร้าง
- กำเนิด
- กำเนิด AI
- ได้รับ
- กำหนด
- เกิดขึ้น
- ที่เกิดขึ้น
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- อย่างสูง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTTPS
- ภาพ
- ภาพ
- ส่งผลกระทบ
- in
- รวมทั้ง
- อิสระ
- ข้อมูล
- อินพุต
- แทน
- ทางปัญญา
- ทรัพย์สินทางปัญญา
- อินเทอร์เน็ต
- IT
- ทราบ
- ฉลาก
- ภาษา
- ที่มีขนาดใหญ่
- คดี
- นำ
- เรียนรู้
- นำ
- กฎหมาย
- เบา
- น่าจะ
- ที่อาศัยอยู่
- Lot
- ต่ำ
- ทำ
- ผู้ผลิต
- การจัดการ
- หลาย
- แผนที่
- การจับคู่
- เรื่อง
- ทางการแพทย์
- วิธี
- กลางการเดินทาง
- อาจ
- ล้าน
- แบบ
- โมเดล
- ข้อมูลเพิ่มเติม
- มากที่สุด
- เป็นที่นิยม
- ชื่อ
- โดยธรรมชาติ
- ภาษาธรรมชาติ
- ใหม่
- ล่าสุด
- มากมาย
- วัตถุ
- ออนไลน์
- พารามิเตอร์
- คน
- สมบูรณ์
- การอนุญาต
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ยอดนิยม
- ภาพเหมือน
- เป็นไปได้
- นำเสนอ
- สวย
- ป้องกัน
- พรินซ์ตัน
- ความเป็นส่วนตัว
- ส่วนตัว
- ข้อมูลส่วนตัว
- คุณสมบัติ
- สิทธิ์ในทรัพย์สิน
- การป้องกัน
- ที่พิสูจน์แล้ว
- การยก
- หายาก
- ราคา
- RE
- จริง
- ความจริง
- บันทึก
- จำ
- การวิจัย
- นักวิจัย
- กำจัด
- สิทธิ
- ฉีก
- กล่าวว่า
- เดียวกัน
- ดูเหมือนว่า
- มีความละเอียดอ่อน
- ชุด
- ชุดอุปกรณ์
- ด้านข้าง
- ตั้งแต่
- เดียว
- ขนาด
- เล็ก
- มีขนาดเล็กกว่า
- ซอฟต์แวร์
- บาง
- บางสิ่งบางอย่าง
- Stability
- มั่นคง
- ยังคง
- จัดเก็บ
- ศึกษา
- อย่างเช่น
- ทีม
- เทคโนโลยี
- พื้นที่
- ของพวกเขา
- ดังนั้น
- เวลา
- ครั้ง
- ไปยัง
- เกินไป
- เครื่องมือ
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- เป็นเอกลักษณ์
- มหาวิทยาลัย
- มหาวิทยาลัยแห่งแคลิฟอร์เนีย
- us
- ใช้
- ผู้ใช้
- มักจะ
- ตัวแปร
- Ve
- คำเตือน
- ว่า
- ที่
- ในขณะที่
- WHO
- ไม่มี
- งาน
- การทำงาน
- จะ
- ลมทะเล
- ซูริค