Konunun Kalbi: Yüksek Lisans Eğitiminde Kopyalamanın Gizemini Ortaya Çıkarmak - DATAVERSITY

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Geçtiğimiz 15 ay dikkate alındığında, ChatGPT'nin halka sunulması ve kullanıma sunulmasının ardından üretken yapay zeka ve büyük dil modellerinde (LLM'ler) kaydedilen ilerleme manşetlere damgasını vurdu.

Bu ilerlemenin yapı taşı, Google araştırmacılarından oluşan bir ekip tarafından "Dikkat İhtiyacınız Olan Her Şey.” Başlıktan da anlaşılacağı gibi, tüm Transformer modellerinin önemli bir özelliği, makalede aşağıdaki şekilde tanımlanan dikkat mekanizmasıdır:

“Bir dikkat işlevi, bir sorguyu ve bir dizi anahtar/değer çiftini, sorgunun, anahtarların, değerlerin ve çıktının tamamının vektör olduğu bir çıktıya eşlemek olarak tanımlanabilir. Çıktı, değerlerin ağırlıklı toplamı olarak hesaplanır; burada her bir değere atanan ağırlık, sorgunun ilgili anahtarla uyumluluk fonksiyonu tarafından hesaplanır."

Üretken yapay zeka modellerinin bir özelliği, metin, görseller, ses dosyaları, video dosyaları veya girdilerin herhangi bir kombinasyonundan oluşabilen veri girdilerinin büyük miktarda tüketilmesidir (bu duruma genellikle "çok modlu" denir). Telif hakkı açısından bakıldığında, sorulması gereken önemli bir soru (birçok önemli soru arasında) eğitim materyallerinin telif hakkı kapsamında saklanıp saklanmadığıdır. büyük dil modeli (LLM) çeşitli LLM satıcıları tarafından üretilmiştir. Bu soruyu cevaplamaya yardımcı olmak için metinsel materyallerin nasıl işlendiğini anlamamız gerekiyor. Metne odaklanarak aşağıda LLM eğitiminin tam olarak bu yönünün kısa, teknik olmayan bir açıklaması yer almaktadır.

İnsanlar, kelimeleri sıralı bir şekilde yerleştirerek doğal dilde iletişim kurarlar; Bir kelimenin dizilişi ve özel biçimiyle ilgili kurallar, belirli bir dil (örneğin İngilizce) tarafından belirlenir. Metni işleyen tüm yazılım sistemleri (ve dolayısıyla bunu yapan tüm yapay zeka sistemleri) için mimarinin önemli bir parçası, sistemin işlevlerinin en verimli şekilde gerçekleştirilebilmesi için bu metnin nasıl temsil edileceğidir. Bu nedenle, dil modellerinde bir metin girişinin işlenmesindeki önemli bir adım, kullanıcı girişinin yapay zeka sisteminin anlayabileceği özel "kelimelere" bölünmesidir. Bu özel kelimelere “belirteçler” denir. Bundan sorumlu olan bileşene "tokenizer" denir. Pek çok tokenizer türü vardır. Örneğin, OpenAI ve Azure OpenAI, Üretken Önceden Eğitimli Transformatör (GPT) tabanlı modelleri için "Bayt Çifti Kodlaması (BPE)" adı verilen bir alt kelime tokenizasyon yöntemini kullanır. BPE, belirli bir sayıda belirteç veya sözcük dağarcığı boyutuna ulaşılana kadar, en sık meydana gelen karakter veya bayt çiftlerini tek bir belirteçte birleştiren bir yöntemdir. Kelime dağarcığı boyutu ne kadar büyük olursa, modelin üretebileceği metinler de o kadar çeşitli ve anlamlı olur.

Yapay zeka sistemi, giriş metnini belirteçlerle eşleştirdikten sonra, belirteçleri sayılara kodlar ve işlediği dizileri "kelime yerleştirme" adı verilen vektörler olarak dönüştürür. Vektör, sıralı bir sayı kümesidir; bunu bir tablodaki satır veya sütun olarak düşünebilirsiniz. Bu vektörler, metin olarak verilen orijinal doğal dil temsillerini koruyan belirteçlerin temsilleridir. Telif hakkı söz konusu olduğunda kelime yerleştirmelerin rolünü anlamak önemlidir çünkü yerleştirmeler tüm cümlelerin, hatta paragrafların ve dolayısıyla vektör kombinasyonlarında, hatta yüksek boyutlu bir vektör uzayındaki tüm belgelerin temsillerini (veya kodlamalarını) oluşturur. Yapay zeka sistemi bu yerleştirmeler aracılığıyla doğal dildeki kelimelerin anlamını ve ilişkilerini yakalayıp saklıyor.

Yerleştirmeler, üretken bir yapay zeka sisteminin gerçekleştirdiği hemen hemen her görevde kullanılır (örneğin, metin oluşturma, metin özetleme, metin sınıflandırma, metin çevirisi, görüntü oluşturma, kod oluşturma vb.). Kelime yerleştirmeler genellikle vektör veritabanlarında depolanır, ancak çok çeşitli satıcılar, süreçler ve kullanımda uygulamalar olduğundan, depolamaya yönelik tüm yaklaşımların ayrıntılı bir açıklaması bu yazının kapsamı dışındadır.

Bahsedildiği gibi, hemen hemen tüm Yüksek Lisanslar, dikkat mekanizmasını devreye sokan Transformer mimarisini temel almaktadır. İkincisi, AI teknolojisinin yalnızca karakter dizileri yerine tüm cümleleri ve hatta paragrafları bir bütün olarak görüntülemesine olanak tanır. Bu, yazılımın, bir kelimenin içinde bulunabileceği çeşitli bağlamları yakalamasına olanak tanır ve bu bağlamlar, telif hakkıyla korunan çalışmalar da dahil olmak üzere eğitimde kullanılan çalışmalar tarafından sağlandığı için keyfi değildir. Bu sayede kelimelerin orijinal kullanımı, orijinal eserin ifadesi yapay zeka sisteminde korunur. Çoğaltılabilir, analiz edilebilir ve yeni ifadelerin temelini oluşturabilir (bu, belirli koşullara bağlı olarak, telif hakkı tabiriyle "türev çalışma" olarak nitelendirilebilir).

Yüksek Lisans'lar üzerinde eğitim aldıkları orijinal eserlerin ifadelerini korurlar. Amaca uygun oluşturulmuş vektör uzaylarında metnin dahili temsillerini oluştururlar ve tetikleyici olarak uygun girdi verildiğinde, eğitimlerinde kullanılan orijinal çalışmaları yeniden üretebilirler. Yapay zeka sistemleri, temel aldıkları LLM'leri eğitmek için kullanılan, telif hakkıyla korunan içerik de dahil olmak üzere içerikten sürekli fayda sağlar. Yüksek Lisans, orijinal çalışmadaki kelimelerin ifadesine dayanarak kelimelerin bağlamını tanır. Ve bu bağlam, eğitimde kullanılan binlerce veya milyonlarca telif hakkıyla korunan eserde yapay zeka sistemine kümülatif olarak fayda sağlıyor. Bu orijinal çalışmalar, telif hakkıyla korunan çalışmanın vektörlerinde (orijinal doğal dil temsillerini koruyan belirteçlerin vektör uzayı temsilleri) depolandığı için yapay zeka sistemi tarafından yeniden oluşturulabilir. Telif hakkı açısından bakıldığında, eğitim materyallerinin LLM'lerde tutulup tutulmadığının belirlenmesi konunun merkezinde yer almaktadır ve bu sorunun cevabının evet olduğu açıktır.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/

Zaman Damgası: Şubat 2, 2024

Zaman Damgası: Aralık 14, 2023

Plato tarafından yeniden yayınlandı

DataStax Demosu: Apache Cassandra ve Apache Pulsar ile Verimli Bir Akış Veri Hattı Oluşturma

Verilerdeki Kariyerim 46. Bölüm: Cynthia Cain Fitzgerald, Üniversite Müdürü, İş Zekası Analitiği, Antakya Üniversitesi – DATAVERSITY

2024'te Neler Beklenmeli: Hibrit ve Çoklu Bulut Mimarisinin Hakimiyeti – DATAVERSITY

My Career in Data 2. Sezon 2. Bölüm: John Ladley, Müdür, Sonrai – DATAVERSITY

data.world Yeni Veri Kalitesi Ölçümleri Sağlamak İçin Snowflake ile Bütünleşiyor – DATAVERSITY

12 Aralık Data-Ed Web Semineri: Veri Yönetimi En İyi Uygulamaları – DATAVERSITY

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap