Üretken AI modelleri, eğitim verilerinden görüntüleri ezberleyebilir ve muhtemelen kullanıcıların özel telif hakkıyla korunan verileri çıkarmasına izin verebilir. araştırma.
DALL-E, Stable Diffusion ve Midjourney gibi araçlar, sanat eserleri ve logolar gibi telif hakkıyla korunan veriler de dahil olmak üzere internetten kazınmış milyarlarca görüntü üzerinde eğitilmiştir. Nesnelerin ve stillerin görsel temsillerini doğal dile eşlemeyi öğrenirler. Girdi olarak bir metin açıklaması verildiğinde, çıktı olarak başlıkla eşleşen bir görüntü oluştururlar.
Yeni teknoloji, telif hakkıyla ilgili yeni bir yasal tartışmayı ateşledi: Bu araçlar, telif hakkıyla korunan görüntüleri izinsiz aldıkları için fikri mülkiyet haklarını ihlal ediyor mu?
davalar açıldı dosyalanmış telif hakkı ihlali nedeniyle en popüler üretici yapay zeka araçlarının yapımcılarına karşı. Metinden resme modeller oluşturan şirketler, yazılımları benzersiz görüntüler oluşturduğundan, telif hakkı verilerini kullanmalarının adil kullanım olduğunu savunuyorlar. Ancak tarzlarının ve eserlerinin bu araçlar tarafından taklit edildiğini gören sanatçılar, onların dolandırıldığına inanıyor.
Artık Google, DeepMind, California Üniversitesi, Berkeley, ETH Zürih ve Princeton Üniversitesi'nde çalışan araştırmacılar tarafından yürütülen araştırma, bu modelleri eğitmek için kullanılan görüntülerin çıkarılabileceğini gösteriyor. Üretken yapay zeka modelleri, görüntüleri ezberler ve bunların tam kopyalarını oluşturarak yeni telif hakkı ve gizlilik endişeleri doğurur.
Araştırmacıların Kararlı Difüzyondan çıkarmayı başardığı bazı görüntü örnekleri
Çalışmanın ortak yazarları, "Bir düşmanın özel bilgileri almak istediği gerçek bir saldırıda, bir görüntü için kullanılan etiketi veya başlığı tahmin ederler" dedi. Kayıt.
"Saldırganın şansına, yöntemimiz bazen tahmin mükemmel olmasa bile işe yarayabilir. Örneğin, eğitim setindeki tam alt yazı yerine ("Ann Graham Lotz ile ışıkta yaşamak") Stable Diffusion'a adını söyleyerek Ann Graham Lotz'un portresini çıkarabiliriz.
Yalnızca model tarafından ezberlenen görüntüler çıkarılabilir ve bir modelin verileri ne kadar ezberleyebileceği, eğitim verileri ve boyutu gibi faktörlere göre değişir. Aynı görüntünün kopyalarının ezberlenmesi daha olasıdır ve daha fazla parametre içeren modellerin de görüntüleri hatırlaması daha olasıdır.
Ekip, Stable Diffusion'ı eğitmek için kullanılan 94 örnekten 350,000 resim ve Google'ın 23 örneğinden 1,000 resim çıkarmayı başardı. Görüntü modeli. Karşılaştırma için, Kararlı Difüzyon 890 milyon parametreye sahiptir ve 160 milyon görüntü üzerinde eğitilmiştir, Imagen ise iki milyar parametreye sahiptir – onu eğitmek için tam olarak kaç görüntünün kullanıldığı net değildir.
Araştırmacılar, "Kararlı Difüzyon için, ezberlenen görüntülerin çoğunun eğitim setinde 100 kez veya daha fazla, ancak bazılarının 10 kez çoğaltıldığını bulduk" dedi. "Google'ın Stable Diffusion'dan daha büyük bir model olan ve daha küçük bir veri kümesiyle eğitilen Imagen modeli için ezberleme çok daha sık görünüyor. Burada, tüm eğitim setinde yalnızca bir kez bulunan, ancak yine de çıkarılabilen bazı aykırı görüntüler buluyoruz."
Daha büyük modellerin neden daha fazla görüntüyü ezberleme eğiliminde olduğundan tam olarak emin değiller, ancak bunun, parametrelerinde daha fazla eğitim verisi depolayabilmeleriyle bir ilgisi olabileceğine inanıyorlar.
Bu modeller için ezberleme oranları oldukça düşüktür ve gerçekte görüntüleri çıkarmak sıkıcı ve ustalık isteyen bir iştir. Saldırganların, modeli ezberlenmiş veriler üretmeye yönlendirmek için çok sayıda istemi tahmin etmesi ve denemesi gerekir. Yine de ekip, geliştiricileri üretken AI modellerini özel hassas veriler üzerinde eğitmekten kaçınmaları konusunda uyarıyor.
“Ezberlemenin ne kadar kötü olduğu üretici modellerin uygulanmasına bağlıdır. Tıbbi alanda olduğu gibi oldukça özel uygulamalarda (örneğin, göğüs röntgeni veya tıbbi kayıtlar üzerine eğitim), kullanıcıların yalnızca çok küçük bir bölümünü etkilese bile ezberleme son derece istenmeyen bir durumdur. Ayrıca, mahremiyete duyarlı uygulamalarda kullanılan eğitim setleri, mevcut üretken sanat modellerini eğitmek için kullanılanlardan genellikle daha küçüktür. Bu nedenle, çoğaltılmamış görüntüler de dahil olmak üzere çok daha fazla ezber görebiliriz” dediler.
Veri çıkarmayı önlemenin bir yolu, modellerde ezberleme olasılığını azaltmaktır. Örneğin, eğitim veri setindeki kopyalardan kurtulmak, görüntülerin ezberlenme ve ayıklanma şansını en aza indirecektir. Stable Diffusion'ın yaratıcıları olan Stability AI'nin, araştırmacıların bulgularından bağımsız olarak en yeni modellerini daha az kopya içeren bir veri kümesi üzerinde eğittiği bildirildi.
Artık metinden görüntüye modellerin üzerinde eğitildikleri görüntülerin tam kopyalarını oluşturabildiği kanıtlandığına göre, bunun telif hakkı davalarını nasıl etkileyeceği açık değil.
"İnternette insanların öne sürdüğünü gördüğümüz yaygın bir argüman, 'bu modeller asla eğitim verilerini ezberlemez' ifadesinin bir çeşidiydi. Artık bunun açıkça yanlış olduğunu biliyoruz. Ancak bunun yasal tartışmada gerçekten önemli olup olmadığı da tartışmaya açık" dedi.
“En azından şimdi, bu davalardaki her iki tarafın da güvenebilecekleri daha somut gerçekleri var: evet, ezberleme oluyor; ama çok nadirdir; ve çoğunlukla yüksek oranda kopyalanan görüntülerde oluyor gibi görünüyor.” ®
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. Buradan Erişin.
- Kaynak: https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/
- 000
- 1
- 10
- 100
- a
- Yapabilmek
- Göre
- aslında
- karşı
- AI
- Izin
- ve
- Uygulama
- uygulamaları
- tartışmak
- tartışma
- Sanat
- Sanatçılar
- sanat eseri
- saldırı
- Kötü
- olmak
- Inanmak
- Berkeley
- Milyar
- milyarlarca
- sınır
- İki taraf da
- bina
- Kaliforniya
- durumlarda
- Merkez
- şansı
- açık
- Açıkça
- ortak
- Şirketler
- karşılaştırma
- Endişeler
- sonucuna
- kopyalar
- telif hakkı
- olabilir
- yaratıcıları
- akım
- dal-e
- veri
- tartışma
- azaltmak
- DeepMind
- bağlıdır
- tanım
- geliştiriciler
- Yayılma
- domain
- çiftleri
- Tüm
- ETH
- ETH Zürih
- Eter (ETH)
- Hatta
- kesinlikle
- örnek
- örnekler
- çıkarmak
- çıkarma
- faktörler
- adil
- az
- bulmak
- iyi ki
- kesir
- sık
- taze
- itibaren
- tam
- Ayrıca
- oluşturmak
- üretir
- üreten
- üretken
- üretken yapay zeka
- alma
- verilmiş
- olmak
- olur
- okuyun
- büyük ölçüde
- Ne kadar
- HTTPS
- görüntü
- görüntüleri
- darbe
- in
- Dahil olmak üzere
- bağımsız
- bilgi
- giriş
- yerine
- entellektüel
- fikri mülkiyet
- Internet
- IT
- Bilmek
- etiket
- dil
- büyük
- Davalar
- öncülük etmek
- ÖĞRENİN
- Led
- Yasal Şartlar
- ışık
- Muhtemelen
- yaşayan
- Çok
- Düşük
- yapmak
- Makineleri
- yönetilen
- çok
- harita
- uygun
- Önemlidir
- tıbbi
- yöntem
- Orta Yolculuk
- olabilir
- milyon
- model
- modelleri
- Daha
- çoğu
- En popüler
- isim
- Doğal (Madenden)
- Doğal lisan
- yeni
- en yeni
- sayısız
- nesneler
- Online
- parametreler
- İnsanlar
- MÜKEMMEL OLAN YERİ BULUN
- izin
- Platon
- Plato Veri Zekası
- PlatoVeri
- Popüler
- portre
- mümkün
- mevcut
- güzel
- önlemek
- princeton
- gizlilik
- özel
- özel bilgi
- özellik
- Mülkiyet hakları
- korumalı
- kanıtlanmış
- kaldırma
- NADİR
- oranlar
- RE
- gerçek
- Gerçeklik
- kayıtlar
- hatırlamak
- araştırma
- Araştırmacılar
- Kurtulmak
- haklar
- sökülmüş
- Adı geçen
- aynı
- görünüyor
- hassas
- set
- Setleri
- Yüzler
- beri
- tek
- beden
- küçük
- daha küçük
- Yazılım
- biraz
- bir şey
- istikrar
- kararlı
- Yine
- mağaza
- Ders çalışma
- böyle
- takım
- Teknoloji
- The
- ve bazı Asya
- bu nedenle
- zaman
- zamanlar
- için
- çok
- araçlar
- Tren
- eğitilmiş
- Eğitim
- benzersiz
- üniversite
- California Üniversitesi
- us
- kullanım
- kullanıcılar
- genellikle
- Varyant
- Ve
- uyarı
- olup olmadığını
- hangi
- süre
- DSÖ
- olmadan
- İş
- çalışma
- olur
- zefirnet
- Zürih