قلب موضوع: کپی راز زدایی در آموزش LLM - DATAVERSITY

بازنشر افلاطون

دنبال: 0

با تأمل در 15 ماه گذشته، پیشرفت در هوش مصنوعی مولد و مدل‌های زبان بزرگ (LLM) پس از معرفی و در دسترس بودن ChatGPT برای عموم، بر سرفصل‌های خبرها غالب شده است.

بلوک سازنده این پیشرفت، معماری مدل ترانسفورماتور بود که توسط تیمی از محققان گوگل در مقاله ای با عنوان "توجه تنها چیزی است که نیاز دارید" همانطور که از عنوان پیداست، یکی از ویژگی های کلیدی تمام مدل های ترانسفورماتور مکانیسم توجه است که در مقاله به شرح زیر تعریف شده است:

"یک تابع توجه را می توان به عنوان نگاشت یک پرس و جو و مجموعه ای از جفت های کلید-مقدار به یک خروجی توصیف کرد، جایی که پرس و جو، کلیدها، مقادیر و خروجی همه بردار هستند. خروجی به عنوان مجموع وزنی مقادیر محاسبه می شود، جایی که وزن اختصاص داده شده به هر مقدار توسط تابع سازگاری پرس و جو با کلید مربوطه محاسبه می شود.

یکی از ویژگی‌های مدل‌های هوش مصنوعی تولیدی، مصرف انبوه ورودی‌های داده است که می‌تواند شامل متن، تصاویر، فایل‌های صوتی، فایل‌های ویدیویی یا هر ترکیبی از ورودی‌ها باشد (موردی که معمولاً به آن «چند وجهی» می‌گویند). از منظر کپی رایت، یک سوال مهم (از بسیاری از سؤالات مهم) این است که آیا مواد آموزشی در آن حفظ می شود یا خیر مدل زبان بزرگ (LLM) تولید شده توسط فروشندگان مختلف LLM. برای کمک به پاسخ به این سوال، باید بدانیم که مواد متنی چگونه پردازش می شوند. با تمرکز بر متن، آنچه در ادامه می‌آید شرح مختصری و غیر فنی دقیقاً همان جنبه آموزش LLM است.

انسان ها با قرار دادن کلمات در توالی به زبان طبیعی ارتباط برقرار می کنند. قوانین مربوط به ترتیب و شکل خاص یک کلمه توسط زبان خاص (مثلاً انگلیسی) دیکته می شود. بخش اساسی معماری برای همه سیستم‌های نرم‌افزاری که متن را پردازش می‌کنند (و بنابراین برای همه سیستم‌های هوش مصنوعی که این کار را انجام می‌دهند) این است که چگونه آن متن را نشان دهیم تا عملکردهای سیستم به بهترین نحو انجام شود. بنابراین، یک مرحله کلیدی در پردازش یک ورودی متنی در مدل‌های زبان، تقسیم ورودی کاربر به «کلمات» ویژه‌ای است که سیستم هوش مصنوعی می‌تواند آن را درک کند. به این کلمات خاص «نشان» می گویند. مؤلفه ای که مسئول آن است «توکنایزر» نامیده می شود. انواع مختلفی از توکن سازها وجود دارد. به عنوان مثال، OpenAI و Azure OpenAI از یک روش رمزگذاری زیرکلمه به نام «Byte-Pair Encoding (BPE)» برای مدل‌های مبتنی بر ترانسفورماتور پیش‌آموزشی (GPT) خود استفاده می‌کنند. BPE روشی است که متداول‌ترین جفت کاراکترها یا بایت‌ها را در یک توکن ادغام می‌کند تا زمانی که به تعداد معینی نشانه یا اندازه واژگان برسد. هر چه اندازه واژگان بزرگتر باشد، متن هایی که مدل می تواند تولید کند متنوع تر و گویاتر است.

هنگامی که سیستم هوش مصنوعی متن ورودی را به توکن‌ها نگاشت، نشانه‌ها را به اعداد رمزگذاری می‌کند و توالی‌هایی را که پردازش می‌کند به عنوان بردارهایی تبدیل می‌کند که به آنها «جاسازی کلمه» گفته می‌شود. بردار مجموعه ای مرتب از اعداد است - می توانید آن را به عنوان یک ردیف یا ستون در یک جدول در نظر بگیرید. این بردارها نمایش هایی از نشانه هایی هستند که نمایش زبان طبیعی اصلی خود را که به عنوان متن ارائه شده است حفظ می کنند. درک نقش جاسازی کلمات در مورد کپی رایت بسیار مهم است زیرا جاسازی ها نمایش (یا رمزگذاری) کل جملات یا حتی پاراگراف ها را تشکیل می دهند و بنابراین، در ترکیب های برداری، حتی کل اسناد را در یک فضای برداری با ابعاد بالا تشکیل می دهند. از طریق این تعبیه‌ها است که سیستم هوش مصنوعی معنی و روابط کلمات را از زبان طبیعی ضبط و ذخیره می‌کند.

جاسازی ها عملاً در هر کاری که یک سیستم هوش مصنوعی مولد انجام می دهد استفاده می شود (به عنوان مثال، تولید متن، خلاصه سازی متن، طبقه بندی متن، ترجمه متن، تولید تصویر، تولید کد و غیره). تعبیه‌های کلمه معمولاً در پایگاه‌های داده برداری ذخیره می‌شوند، اما شرح دقیق همه رویکردهای ذخیره‌سازی خارج از محدوده این پست است زیرا طیف گسترده‌ای از فروشندگان، فرآیندها و شیوه‌های در حال استفاده وجود دارد.

همانطور که گفته شد، تقریباً تمام LLM ها بر اساس معماری Transformer هستند که مکانیسم توجه را فراخوانی می کند. دومی به فناوری هوش مصنوعی اجازه می‌دهد تا کل جملات و حتی پاراگراف‌ها را به‌جای دنباله‌ای از شخصیت‌ها، به‌عنوان یک کل ببیند. این به نرم‌افزار اجازه می‌دهد تا زمینه‌های مختلفی را که در آن یک کلمه می‌تواند رخ دهد، ضبط کند، و از آنجایی که این زمینه‌ها توسط آثار مورد استفاده در آموزش، از جمله آثار دارای حق چاپ، ارائه می‌شوند، دلخواه نیستند. به این ترتیب، استفاده اصلی از کلمات، بیان اثر اصلی، در سیستم هوش مصنوعی حفظ می شود. می توان آن را بازتولید و تجزیه و تحلیل کرد و می تواند مبنای عبارات جدیدی باشد (که بسته به شرایط خاص، ممکن است در اصطلاح کپی رایت به عنوان "کار مشتق" شناخته شود).

LLM ها عبارات آثار اصلی را که بر روی آنها آموزش دیده اند حفظ می کنند. آنها نمایش های داخلی متن را در فضاهای برداری هدفمند تشکیل می دهند و با توجه به ورودی مناسب به عنوان یک ماشه، می توانند آثار اصلی را که در آموزش آنها استفاده شده است، بازتولید کنند. سیستم‌های هوش مصنوعی از محتوا، از جمله محتوای دارای حق نسخه‌برداری، که برای آموزش LLM‌هایی که بر اساس آن‌ها هستند، استفاده می‌شود، مزایای همیشگی دارند. LLM ها زمینه کلمات را بر اساس بیان کلمات در اثر اصلی تشخیص می دهند. و این زمینه به طور انباشته به سیستم هوش مصنوعی در هزاران یا میلیون‌ها اثر دارای حق چاپ که در آموزش استفاده می‌شوند، سود می‌رساند. این آثار اصلی را می‌توان توسط سیستم هوش مصنوعی دوباره ایجاد کرد، زیرا آنها در بردارها - نمایش‌های فضای برداری نشانه‌هایی که بازنمایی زبان طبیعی اصلی خود را حفظ می‌کنند - از اثر دارای حق چاپ ذخیره می‌شوند. از منظر کپی رایت، تعیین اینکه آیا مواد آموزشی در LLM حفظ می شود یا خیر، در مرکز موضوع است، و واضح است که پاسخ به این سوال مثبت است.