Sedno sprawy: demistyfikacja kopiowania w szkoleniu menedżerów LLM – DATAVERSITY

Sedno sprawy: demistyfikacja kopiowania w szkoleniu menedżerów LLM – DATAVERSITY

Węzeł źródłowy: 3093102

Patrząc na ostatnie 15 miesięcy, na pierwszych stronach gazet zdominował postęp w zakresie generatywnej sztucznej inteligencji i dużych modeli językowych (LLM) po wprowadzeniu i publicznym udostępnieniu ChatGPT. 

Podstawą tego postępu była architektura modelu Transformer nakreślona przez zespół badaczy Google w artykule zatytułowanym „Uwaga jest wszystkim, czego potrzebujesz.” Jak sugeruje tytuł, kluczową cechą wszystkich modeli Transformerów jest mechanizm uwagi, zdefiniowany w artykule w następujący sposób:

„Funkcję uwagi można opisać jako mapowanie zapytania i zestawu par klucz-wartość na wynik, gdzie zapytanie, klucze, wartości i dane wyjściowe są wektorami. Dane wyjściowe są obliczane jako ważona suma wartości, przy czym waga przypisana do każdej wartości jest obliczana na podstawie funkcji zgodności zapytania z odpowiednim kluczem.

Cechą charakterystyczną generatywnych modeli sztucznej inteligencji jest ogromne zużycie danych wejściowych, które mogą składać się z tekstu, obrazów, plików audio, plików wideo lub dowolnej kombinacji danych wejściowych (przypadek zwykle określany jako „multimodalny”). Z punktu widzenia praw autorskich ważnym pytaniem (z wielu ważnych pytań), które należy zadać, jest to, czy materiały szkoleniowe są przechowywane w pliku duży model językowy (LLM) produkowane przez różnych dostawców LLM. Aby odpowiedzieć na to pytanie, musimy zrozumieć, w jaki sposób przetwarzane są materiały tekstowe. Koncentrując się na tekście, poniżej znajduje się krótki, nietechniczny opis dokładnie tego aspektu szkolenia LLM. 

Ludzie komunikują się w języku naturalnym, umieszczając słowa w sekwencjach; zasady dotyczące kolejności i określonej formy słowa są podyktowane konkretnym językiem (np. angielskim). Istotną częścią architektury wszystkich systemów oprogramowania przetwarzających tekst (a zatem wszystkich systemów sztucznej inteligencji, które to robią) jest sposób reprezentowania tego tekstu, aby funkcje systemu mogły być wykonywane w sposób najbardziej efektywny. Dlatego kluczowym krokiem w przetwarzaniu danych wejściowych w modelach językowych jest podzielenie danych wejściowych użytkownika na specjalne „słowa”, które system AI może zrozumieć. Te specjalne słowa nazywane są „żetonami”. Komponent, który za to odpowiada, nazywany jest „tokenizerem”. Istnieje wiele rodzajów tokenizerów. Na przykład OpenAI i Azure OpenAI używają metody tokenizacji podsłów o nazwie „Kodowanie par bajtów (BPE)” w swoich modelach opartych na generatywnym wstępnie przeszkolonym transformatorze (GPT). BPE to metoda, która łączy najczęściej występujące pary znaków lub bajtów w jeden token, aż do osiągnięcia określonej liczby tokenów lub rozmiaru słownictwa. Im większy rozmiar słownictwa, tym bardziej różnorodne i wyraziste teksty można wygenerować za pomocą modelu.

Gdy system AI zmapuje tekst wejściowy na tokeny, koduje tokeny na liczby i konwertuje przetworzone sekwencje jako wektory zwane „osadzaniem słów”. Wektor to uporządkowany zbiór liczb – można o nim myśleć jak o wierszu lub kolumnie w tabeli. Te wektory są reprezentacjami tokenów, które zachowują swoją oryginalną reprezentację w języku naturalnym, podaną jako tekst. Ważne jest, aby zrozumieć rolę osadzania słów w prawie autorskim, ponieważ osadzania tworzą reprezentacje (lub kodowania) całych zdań, a nawet akapitów, a zatem w kombinacjach wektorowych nawet całych dokumentów w wielowymiarowej przestrzeni wektorowej. To dzięki tym osadzeniom system sztucznej inteligencji przechwytuje i przechowuje znaczenie i powiązania słów z języka naturalnego. 

Osadzania są wykorzystywane praktycznie w każdym zadaniu, które wykonuje generatywny system AI (np. generowanie tekstu, podsumowywanie tekstu, klasyfikacja tekstu, tłumaczenie tekstu, generowanie obrazu, generowanie kodu itd.). Osadzanie słów jest zwykle przechowywane w wektorowych bazach danych, ale szczegółowy opis wszystkich podejść do przechowywania wykracza poza zakres tego posta, ponieważ istnieje szeroka gama dostawców, procesów i praktyk.

Jak wspomniano, prawie wszystkie LLM opierają się na architekturze Transformer, która odwołuje się do mechanizmu uwagi. Ta ostatnia umożliwia technologii sztucznej inteligencji wyświetlanie całych zdań, a nawet akapitów jako całości, a nie jedynie jako sekwencji znaków. Dzięki temu oprogramowanie może uchwycić różne konteksty, w jakich może wystąpić słowo, a ponieważ konteksty te są dostarczane przez utwory użyte w szkoleniu, w tym dzieła chronione prawem autorskim, nie są one arbitralne. W ten sposób oryginalne użycie słów i ekspresja oryginalnego dzieła zostają zachowane w systemie AI. Można je powielać i analizować, a także stanowić podstawę nowych wyrażeń (które w zależności od konkretnych okoliczności można określić jako „utwór pochodny” w żargonie praw autorskich). 

LLM zachowują wyrażenia oryginalnych dzieł, na których zostali przeszkoleni. Tworzą wewnętrzne reprezentacje tekstu w specjalnie zaprojektowanych przestrzeniach wektorowych i przy odpowiednim wejściu jako wyzwalaczu mogą odtworzyć oryginalne dzieła, które wykorzystano podczas ich szkolenia. Systemy AI czerpią stałe korzyści z treści, w tym treści chronionych prawem autorskim, wykorzystywanych do szkolenia LLM, na których są oparte. LLM rozpoznają kontekst słów na podstawie ekspresji słów w oryginalnym dziele. Kontekst ten przynosi łącznie korzyści systemowi sztucznej inteligencji w postaci tysięcy, a nawet milionów dzieł chronionych prawem autorskim wykorzystywanych w szkoleniach. Te oryginalne dzieła mogą zostać odtworzone przez system sztucznej inteligencji, ponieważ są przechowywane w wektorach – reprezentacjach tokenów w przestrzeni wektorowej, które zachowują ich oryginalną reprezentację w języku naturalnym – dzieła chronionego prawem autorskim. Z punktu widzenia praw autorskich ustalenie, czy materiały szkoleniowe są zachowywane w LLM, stanowi sedno sprawy i jasne jest, że odpowiedź na to pytanie brzmi „tak”.

Znak czasu:

Więcej z WSZECHSTRONNOŚĆ DANYCH