בהתחשב ב-15 החודשים האחרונים, ההתקדמות שנעשתה ב-AI ומודלים של שפה גדולה (LLMs) בעקבות ההקדמה והזמינות של ChatGPT לציבור שלטה בכותרות.
אבן הבניין להתקדמות זו הייתה ארכיטקטורת מודל ה-Transformer שתוארה על ידי צוות של חוקרים של גוגל במאמר שכותרתו "תשומת הלב היא כל מה שאתה צריך." כפי שמרמזת הכותרת, מאפיין מרכזי של כל דגמי הרובוטריק הוא מנגנון הקשב, המוגדר במאמר כדלקמן:
"ניתן לתאר פונקציית קשב כמיפוי שאילתה וקבוצה של צמדי מפתח-ערך לפלט, כאשר השאילתה, המפתחות, הערכים והפלט הם כולם וקטורים. הפלט מחושב כסכום משוקלל של הערכים, כאשר המשקל המוקצה לכל ערך מחושב על ידי פונקציית תאימות של השאילתה עם המפתח המתאים."
מאפיין של דגמי AI גנרטיביים הוא הצריכה המסיבית של כניסות נתונים, שיכולות להיות מורכבות מטקסט, תמונות, קבצי אודיו, קבצי וידאו או כל שילוב של הכניסות (מקרה המכונה בדרך כלל "מולטי-מודאלי"). מנקודת מבט של זכויות יוצרים, שאלה חשובה (מבין שאלות חשובות רבות) שיש לשאול היא האם חומרי הדרכה נשמרים ב- מודל שפה גדול (LLM) מיוצר על ידי ספקי LLM שונים. כדי לעזור לענות על השאלה הזו, עלינו להבין כיצד החומרים הטקסטואליים מעובדים. בהתמקדות בטקסט, מה להלן הוא תיאור קצר ולא טכני של בדיוק ההיבט הזה של הכשרת LLM.
בני אדם מתקשרים בשפה טבעית על ידי הצבת מילים ברצפים; הכללים לגבי הרצף והצורה הספציפית של מילה מוכתבים על ידי השפה הספציפית (למשל, אנגלית). חלק מהותי בארכיטקטורה עבור כל מערכות התוכנה המעבדות טקסט (ולכן עבור כל מערכות הבינה המלאכותית שעושות זאת) הוא כיצד לייצג את הטקסט הזה כך שניתן לבצע את הפונקציות של המערכת בצורה היעילה ביותר. לכן, שלב מרכזי בעיבוד קלט טקסטואלי במודלים של שפה הוא פיצול קלט המשתמש ל"מילים" מיוחדות שמערכת הבינה המלאכותית יכולה להבין. המילים המיוחדות הללו נקראות "אסימונים". הרכיב שאחראי לכך נקרא "טוקנייזר". ישנם סוגים רבים של אסימונים. לדוגמה, OpenAI ו-Azure OpenAI משתמשות בשיטת טוקניזציה של תת-מילות הנקראת "קידוד בייט-זוג (BPE)" עבור המודלים המבוססים על Generative Pretrained Transformer (GPT) שלהם. BPE היא שיטה הממזגת את צמדי התווים או בתים המתרחשים בתדירות הגבוהה ביותר לאסימון בודד, עד שמגיעים למספר מסוים של אסימונים או גודל אוצר מילים. ככל שגודל אוצר המילים גדול יותר, כך הטקסטים שהמודל יכול להפיק מגוונים ואקספרסיביים יותר.
לאחר שמערכת הבינה המלאכותית מיפתה את טקסט הקלט לאסימונים, היא מקודדת את האסימונים למספרים וממירה את הרצפים שהיא עיבדה בתור וקטורים המכונים "הטבעות מילים". וקטור הוא קבוצה מסודרת של מספרים - אתה יכול לחשוב על זה כשורה או עמודה בטבלה. וקטורים אלו הם ייצוגים של אסימונים המשמרים את ייצוג השפה הטבעית המקורית שלהם שניתן כטקסט. חשוב להבין את תפקידן של הטבעות מילים בכל הנוגע לזכויות יוצרים מכיוון שההטבעות יוצרות ייצוגים (או קידודים) של משפטים שלמים, או אפילו פסקאות, ולכן, בצירופים וקטוריים, אפילו מסמכים שלמים במרחב וקטורי במימד גבוה. באמצעות ההטמעות הללו מערכת ה-AI לוכדת ומאחסנת את המשמעות והיחסים של מילים מהשפה הטבעית.
ההטמעות משמשות כמעט בכל משימה שמערכת בינה מלאכותית מבצעת (למשל, הפקת טקסט, סיכום טקסט, סיווג טקסט, תרגום טקסט, הפקת תמונות, הפקת קוד וכן הלאה). הטמעות מילים מאוחסנות בדרך כלל במסדי נתונים וקטוריים, אך תיאור מפורט של כל הגישות לאחסון הוא מעבר לתחום של פוסט זה מכיוון שיש מגוון רחב של ספקים, תהליכים ופרקטיקות בשימוש.
כאמור, כמעט כל ה-LLMs מבוססים על ארכיטקטורת ה-Transformer, אשר מפעילה את מנגנון הקשב. זה האחרון מאפשר לטכנולוגיית הבינה המלאכותית לראות משפטים שלמים, ואפילו פסקאות, כמכלול ולא רק כרצפים של תווים. זה מאפשר לתוכנה ללכוד את ההקשרים השונים שבתוכם יכולה להתרחש מילה, ומכיוון שהקשרים אלו מסופקים על ידי היצירות המשמשות בהדרכה, לרבות יצירות המוגנות בזכויות יוצרים, הן אינן שרירותיות. באופן זה, השימוש המקורי במילים, הביטוי של היצירה המקורית, נשמר במערכת ה-AI. ניתן לשכפל ולנתח אותו, ויכול להוות בסיס לביטויים חדשים (אשר, בהתאם לנסיבות הספציפיות, עשויים להיות מאופיינים כ"יצירה נגזרת" בעגה של זכויות יוצרים).
לימודי תואר שני שומרים על הביטויים של היצירות המקוריות שעליהן הוכשרו. הם יוצרים ייצוגים פנימיים של הטקסט במרחבים וקטוריים שנבנו במיוחד, ובהינתן הקלט המתאים כטריגר, הם יכלו לשחזר את היצירות המקוריות ששימשו בהכשרתם. מערכות בינה מלאכותית מפיקות יתרונות תמידיים מהתוכן, כולל תוכן המוגן בזכויות יוצרים, המשמש להכשרת ה-LLMs שעליהם הם מבוססים. LLMs מזהים את ההקשר של מילים על סמך הביטוי של מילים ביצירה המקורית. והקשר זה מועיל באופן מצטבר למערכת הבינה המלאכותית על פני אלפי, או מיליוני, יצירות המוגנות בזכויות יוצרים המשמשות בהדרכה. ניתן ליצור מחדש את היצירות המקוריות הללו על ידי מערכת הבינה המלאכותית מכיוון שהן מאוחסנות בוקטורים - ייצוגי מרחב וקטור של אסימונים המשמרים את ייצוג השפה הטבעית המקורית שלהם - של היצירה המוגנת בזכויות יוצרים. מנקודת מבט של זכויות יוצרים, קביעה אם חומרי הדרכה נשמרים ב-LLMs היא לב העניין, וברור שהתשובה לשאלה זו היא חיובית.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/
- :יש ל
- :הוא
- :לֹא
- :איפה
- 15%
- a
- אודות
- לרוחב
- Ad
- AI
- דגמי AI
- מערכות AI
- תעשיות
- מאפשר
- כמעט
- an
- מְנוּתָח
- ו
- לענות
- כל
- גישות
- מתאים
- שרירותי
- ארכיטקטורה
- ARE
- AS
- לשאול
- אספקט
- שהוקצה
- At
- תשומת לב
- אודיו
- זמינות
- תכלת
- מבוסס
- בסיס
- BE
- כי
- היה
- הטבות
- מעבר
- לחסום
- בִּניָן
- אבל
- by
- נקרא
- CAN
- ללכוד
- לוכדת
- מקרה
- מסוים
- מאפיין
- מאופיין
- תווים
- ChatGPT
- בנסיבות
- מיון
- ברור
- קוד
- טור
- שילוב
- שילובים
- מגיע
- להעביר
- תאימות
- רְכִיב
- מחושב
- צְרִיכָה
- תוכן
- הקשר
- הקשרים
- הַעתָקָה
- זכויות יוצרים
- תוֹאֵם
- יכול
- נתונים
- מאגרי מידע
- קושי
- מוגדר
- תלוי
- לגזור
- מְתוּאָר
- תיאור
- מְפוֹרָט
- קביעה
- הכתיב
- שונה
- DM
- do
- מסמכים
- נשלט
- e
- כל אחד
- יעילות
- הַצפָּנָה
- אנגלית
- שלם
- רשאי
- חיוני
- Ether (ETH)
- אֲפִילוּ
- אירוע
- כל
- בדיוק
- דוגמה
- ביטוי
- ביטויים
- אֶקְסְפּרֶסִיבִי
- מאפיין
- קבצים
- התמקדות
- הבא
- כדלקמן
- בעד
- טופס
- בתדירות גבוהה
- החל מ-
- פונקציה
- פונקציות
- ליצור
- דור
- גנרטטיבית
- AI Generative
- נתן
- יש
- כותרות
- לֵב
- לעזור
- איך
- איך
- HTTPS
- תמונה
- דור תמונה
- תמונות
- חשוב
- in
- כולל
- קלט
- תשומות
- פנימי
- אל תוך
- מבוא
- מעורר
- IT
- מפתח
- מפתחות
- שפה
- גָדוֹל
- גדול יותר
- LLM
- עשוי
- רב
- מיפוי
- מסיבי
- חומרים
- דבר
- מאי..
- משמעות
- מנגנון
- מוּזְכָּר
- סתם
- מתמזג
- שיטה
- מיליונים
- מודל
- מודלים
- חודשים
- יותר
- רוב
- טבעי
- שפה טבעית
- צורך
- NeurIPS
- חדש
- ניוזלטר
- לא טכני
- מספר
- מספרים
- להתרחש
- מתרחש
- of
- on
- OpenAI
- or
- מְקוֹרִי
- המתואר
- תפוקה
- זוגות
- מאמר
- חלק
- עבר
- ביצעתי
- מבצע
- נצחי
- פרספקטיבה
- הַצָבָה
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- הודעה
- לְמַעֲשֶׂה
- פרקטיקות
- השתמר
- תהליך
- מעובד
- תהליכים
- תהליך
- מיוצר
- התקדמות
- ובלבד
- ציבורי
- שאלה
- שאלה
- שאלות
- במקום
- הגיע
- להכיר
- מכונה
- מערכות יחסים
- לייצג
- נציגות
- חוקרים
- אחראי
- לִשְׁמוֹר
- שמור
- תפקיד
- שׁוּרָה
- כללי
- היקף
- רצף
- סט
- יחיד
- מידה
- So
- תוכנה
- מֶרחָב
- רווחים
- מיוחד
- ספציפי
- שלב
- אחסון
- מאוחסן
- חנויות
- מציע
- סכום
- מערכת
- מערכות
- שולחן
- המשימות
- נבחרת
- טכנולוגיה
- טֶקסט
- סיווג טקסט
- דור טקסט
- טקסטואלית
- מֵאֲשֶׁר
- זֶה
- השמיים
- שֶׁלָהֶם
- שם.
- לכן
- אלה
- הֵם
- לחשוב
- זֶה
- אלה
- אלפים
- דרך
- כותרת
- ל
- אסימון
- טוקניזציה
- מטבעות
- רכבת
- מְאוּמָן
- הדרכה
- שנאי
- תרגום
- להפעיל
- סוגים
- להבין
- עד
- על
- להשתמש
- מְשׁוּמָשׁ
- משתמש
- בְּדֶרֶך כְּלַל
- ערך
- ערכים
- מגוון
- שונים
- ספקים
- וִידֵאוֹ
- לצפיה
- נצפה
- היה
- דֶרֶך..
- we
- שבועי
- מִשׁקָל
- היו
- מה
- מתי
- אם
- אשר
- כל
- רָחָב
- עם
- בתוך
- Word
- מילים
- תיק עבודות
- עובד
- כן
- אתה
- זפירנט