לב העניין: העתקה מעוררת מיסתורין בהכשרה של LLMs - DATAVERSITY

הועלה מחדש על ידי אפלטון

עוקב: 0

בהתחשב ב-15 החודשים האחרונים, ההתקדמות שנעשתה ב-AI ומודלים של שפה גדולה (LLMs) בעקבות ההקדמה והזמינות של ChatGPT לציבור שלטה בכותרות.

אבן הבניין להתקדמות זו הייתה ארכיטקטורת מודל ה-Transformer שתוארה על ידי צוות של חוקרים של גוגל במאמר שכותרתו "תשומת הלב היא כל מה שאתה צריך." כפי שמרמזת הכותרת, מאפיין מרכזי של כל דגמי הרובוטריק הוא מנגנון הקשב, המוגדר במאמר כדלקמן:

"ניתן לתאר פונקציית קשב כמיפוי שאילתה וקבוצה של צמדי מפתח-ערך לפלט, כאשר השאילתה, המפתחות, הערכים והפלט הם כולם וקטורים. הפלט מחושב כסכום משוקלל של הערכים, כאשר המשקל המוקצה לכל ערך מחושב על ידי פונקציית תאימות של השאילתה עם המפתח המתאים."

מאפיין של דגמי AI גנרטיביים הוא הצריכה המסיבית של כניסות נתונים, שיכולות להיות מורכבות מטקסט, תמונות, קבצי אודיו, קבצי וידאו או כל שילוב של הכניסות (מקרה המכונה בדרך כלל "מולטי-מודאלי"). מנקודת מבט של זכויות יוצרים, שאלה חשובה (מבין שאלות חשובות רבות) שיש לשאול היא האם חומרי הדרכה נשמרים ב- מודל שפה גדול (LLM) מיוצר על ידי ספקי LLM שונים. כדי לעזור לענות על השאלה הזו, עלינו להבין כיצד החומרים הטקסטואליים מעובדים. בהתמקדות בטקסט, מה להלן הוא תיאור קצר ולא טכני של בדיוק ההיבט הזה של הכשרת LLM.

בני אדם מתקשרים בשפה טבעית על ידי הצבת מילים ברצפים; הכללים לגבי הרצף והצורה הספציפית של מילה מוכתבים על ידי השפה הספציפית (למשל, אנגלית). חלק מהותי בארכיטקטורה עבור כל מערכות התוכנה המעבדות טקסט (ולכן עבור כל מערכות הבינה המלאכותית שעושות זאת) הוא כיצד לייצג את הטקסט הזה כך שניתן לבצע את הפונקציות של המערכת בצורה היעילה ביותר. לכן, שלב מרכזי בעיבוד קלט טקסטואלי במודלים של שפה הוא פיצול קלט המשתמש ל"מילים" מיוחדות שמערכת הבינה המלאכותית יכולה להבין. המילים המיוחדות הללו נקראות "אסימונים". הרכיב שאחראי לכך נקרא "טוקנייזר". ישנם סוגים רבים של אסימונים. לדוגמה, OpenAI ו-Azure OpenAI משתמשות בשיטת טוקניזציה של תת-מילות הנקראת "קידוד בייט-זוג (BPE)" עבור המודלים המבוססים על Generative Pretrained Transformer (GPT) שלהם. BPE היא שיטה הממזגת את צמדי התווים או בתים המתרחשים בתדירות הגבוהה ביותר לאסימון בודד, עד שמגיעים למספר מסוים של אסימונים או גודל אוצר מילים. ככל שגודל אוצר המילים גדול יותר, כך הטקסטים שהמודל יכול להפיק מגוונים ואקספרסיביים יותר.

לאחר שמערכת הבינה המלאכותית מיפתה את טקסט הקלט לאסימונים, היא מקודדת את האסימונים למספרים וממירה את הרצפים שהיא עיבדה בתור וקטורים המכונים "הטבעות מילים". וקטור הוא קבוצה מסודרת של מספרים - אתה יכול לחשוב על זה כשורה או עמודה בטבלה. וקטורים אלו הם ייצוגים של אסימונים המשמרים את ייצוג השפה הטבעית המקורית שלהם שניתן כטקסט. חשוב להבין את תפקידן של הטבעות מילים בכל הנוגע לזכויות יוצרים מכיוון שההטבעות יוצרות ייצוגים (או קידודים) של משפטים שלמים, או אפילו פסקאות, ולכן, בצירופים וקטוריים, אפילו מסמכים שלמים במרחב וקטורי במימד גבוה. באמצעות ההטמעות הללו מערכת ה-AI לוכדת ומאחסנת את המשמעות והיחסים של מילים מהשפה הטבעית.

ההטמעות משמשות כמעט בכל משימה שמערכת בינה מלאכותית מבצעת (למשל, הפקת טקסט, סיכום טקסט, סיווג טקסט, תרגום טקסט, הפקת תמונות, הפקת קוד וכן הלאה). הטמעות מילים מאוחסנות בדרך כלל במסדי נתונים וקטוריים, אך תיאור מפורט של כל הגישות לאחסון הוא מעבר לתחום של פוסט זה מכיוון שיש מגוון רחב של ספקים, תהליכים ופרקטיקות בשימוש.

כאמור, כמעט כל ה-LLMs מבוססים על ארכיטקטורת ה-Transformer, אשר מפעילה את מנגנון הקשב. זה האחרון מאפשר לטכנולוגיית הבינה המלאכותית לראות משפטים שלמים, ואפילו פסקאות, כמכלול ולא רק כרצפים של תווים. זה מאפשר לתוכנה ללכוד את ההקשרים השונים שבתוכם יכולה להתרחש מילה, ומכיוון שהקשרים אלו מסופקים על ידי היצירות המשמשות בהדרכה, לרבות יצירות המוגנות בזכויות יוצרים, הן אינן שרירותיות. באופן זה, השימוש המקורי במילים, הביטוי של היצירה המקורית, נשמר במערכת ה-AI. ניתן לשכפל ולנתח אותו, ויכול להוות בסיס לביטויים חדשים (אשר, בהתאם לנסיבות הספציפיות, עשויים להיות מאופיינים כ"יצירה נגזרת" בעגה של זכויות יוצרים).

לימודי תואר שני שומרים על הביטויים של היצירות המקוריות שעליהן הוכשרו. הם יוצרים ייצוגים פנימיים של הטקסט במרחבים וקטוריים שנבנו במיוחד, ובהינתן הקלט המתאים כטריגר, הם יכלו לשחזר את היצירות המקוריות ששימשו בהכשרתם. מערכות בינה מלאכותית מפיקות יתרונות תמידיים מהתוכן, כולל תוכן המוגן בזכויות יוצרים, המשמש להכשרת ה-LLMs שעליהם הם מבוססים. LLMs מזהים את ההקשר של מילים על סמך הביטוי של מילים ביצירה המקורית. והקשר זה מועיל באופן מצטבר למערכת הבינה המלאכותית על פני אלפי, או מיליוני, יצירות המוגנות בזכויות יוצרים המשמשות בהדרכה. ניתן ליצור מחדש את היצירות המקוריות הללו על ידי מערכת הבינה המלאכותית מכיוון שהן מאוחסנות בוקטורים - ייצוגי מרחב וקטור של אסימונים המשמרים את ייצוג השפה הטבעית המקורית שלהם - של היצירה המוגנת בזכויות יוצרים. מנקודת מבט של זכויות יוצרים, קביעה אם חומרי הדרכה נשמרים ב-LLMs היא לב העניין, וברור שהתשובה לשאלה זו היא חיובית.