OpenAI: בלתי אפשרי לאמן AI ברמה העליונה ולהימנע מזכויות יוצרים

OpenAI: בלתי אפשרי לאמן AI ברמה העליונה ולהימנע מזכויות יוצרים

צומת המקור: 3052150

OpenAI אמרה שזה יהיה "בלתי אפשרי" לבנות רשתות נוירונים ברמה הגבוהה ביותר העונות על הצרכים של היום מבלי להשתמש ביצירה המוגנת בזכויות יוצרים של אנשים. המעבדה הנתמכת על ידי מיקרוסופט, אשר מאמינה שהיא קוטפת את התוכן האמור כדין להכשרת הדגמים שלה, אמרה כי שימוש בחומר מחוץ לזכויות יוצרים יוביל לתוכנת AI תת-מוגדרת.

קביעה זו מגיעה בזמן שעולם למידת המכונה דוחק ראש ראשון לעבר קיר הלבנים שהוא חוק זכויות יוצרים. רק השבוע סיכם דוח IEEE של Midjourney ו-DALL-E 3 של OpenAI, שניים משירותי הבינה המלאכותית העיקריים להפיכת הודעות טקסט לתמונות, יכולים ליצור מחדש סצנות המוגנות בזכויות יוצרים מסרטים ומשחקי וידאו בהתבסס על נתוני האימון שלהם.

השמיים ללמוד, שנכתב במשותף על ידי גארי מרקוס, מומחה ומבקר בינה מלאכותית, וריד סאות'ן, מאייר דיגיטלי, מתעד מקרים מרובים של "פלטי פלגיאט" שבהם OpenAI ו-DALL-E 3 מציגים גרסאות דומות באופן מהותי של סצנות מסרטים, תמונות של מפורסמים שחקנים ותוכן משחקי וידאו.

מרקוס וסאות'ן אומרים שכמעט בטוח ש-Midjourney ו-OpenAI הכשירו את המודלים שלהם ליצירת תמונות בינה מלאכותית על חומר המוגן בזכויות יוצרים.

האם זה חוקי, והאם ספקי בינה מלאכותית או לקוחותיהם מסתכנים באחריות, נותרה שאלה שנויה במחלוקת. עם זאת, ממצאי הדו"ח עשויים לחזק את אלה שתובעים את Midjourney ואת יצרנית DALL-E OpenAI בגין הפרת זכויות יוצרים.

ייתכן שמשתמשים אינם יודעים, כאשר הם מפיקים תמונה, אם הם מפרים

"גם OpenAI וגם Midjourney מסוגלים לייצר חומרים שנראים כמפרים זכויות יוצרים וסימנים מסחריים", הם כתבו. "מערכות אלו אינן מודיעות למשתמשים כשהן עושות זאת. הם אינם מספקים כל מידע על מקור התמונות שהם מייצרים. ייתכן שמשתמשים לא יודעים, כאשר הם מייצרים תמונה, אם הם מפרים זכויות יוצרים".

אף Biz לא חשף במלואו את נתוני האימון המשמשים לייצור דגמי הבינה המלאכותית שלהם.

זה לא רק אמנים דיגיטליים חברות בינה מלאכותיות מאתגרות. הניו יורק טיימס לאחרונה תבע את OpenAI מכיוון שמודל הטקסט של ChatGPT שלו יפלוט עותקים כמעט מילוליים של מאמרי העיתון עם חומת תשלום. מחברי ספרים הגישו תביעות דומות, כפי שהגישו מפתחי תוכנה.

קודם מחקר ציינו שניתן לשדל את ChatGPT של OpenAI לשחזר טקסט אימון. ותובעים את מיקרוסופט ואת GitHub טוענים שמודל עוזר הקידוד של Copilot ישחזר קוד פחות או יותר מילה במילה.

סאות'ן ציין שמידג'ורני גובה מלקוחות שיוצרים תוכן מפר ומרוויחים באמצעות הכנסות ממנויים. "משתמשי MJ [Midjourney] לא צריכים למכור את התמונות כדי שהפרת זכויות יוצרים התרחשה, MJ כבר מרוויחה מהיצירה שלה", הוא מסומנת, מהדהד טיעון שהועלה בדוח IEEE.

OpenAI גם גובה דמי מנוי וכך מרוויחים באותו אופן. גם OpenAI וגם Midjourney לא הגיבו לבקשות להגיב.

עם זאת, OpenAI פרסמה ביום שני את א בלוג התייחס לתביעה של הניו יורק טיימס, שלדברי מוכר הבינה המלאכותית חסרה כשרון. למרבה הפלא, המעבדה אמרה שאם הרשתות הנוירוניות שלה מייצרות תוכן מפר, זה היה "באג".

בסך הכל, הסטארטיסט היום טען כי: הוא משתף פעולה באופן פעיל עם ארגוני חדשות; הדרכה על נתונים המוגנים בזכויות יוצרים מתאימה להגנה על שימוש הוגן על פי חוק זכויות יוצרים; "'regurgitation' הוא באג נדיר שאנחנו עובדים כדי להביא לאפס"; ולניו יורק טיימס יש דוגמאות נבחרות של שכפול טקסט שאינן מייצגות התנהגות אופיינית.

החוק יחליט

טיילר אוצ'ואה, פרופסור במחלקה למשפטים באוניברסיטת סנטה קלרה בקליפורניה, סיפר הקופה שאמנם הממצאים של דו"ח IEEE עשויים לסייע למתדיינים עם תביעות זכויות יוצרים, אבל הם לא צריכים - כי מחברי המאמר, לדעתו, הציגו מצג שווא מה קורה.

"הם כותבים: 'האם ניתן לגרום למודלים של יצירת תמונות לייצר פלגיאטיות המבוססות על חומרים בזכויות יוצרים? ... [מצאנו שהתשובה היא בבירור כן, אפילו מבלי לבקש ישירות פלטי פלגיאט.'

אוצ'ואה הטיל ספק במסקנה זו, בטענה שההנחיות בהן נכנסו מחברי הדו"ח "מוכיחות שהם, אכן, מבקשים ישירות פלגיאטיות. כל הנחיה בודדת מזכירה את הכותרת של סרט ספציפי, מציינת את יחס הגובה-רוחב, ובכל המקרים מלבד אחד, המילים 'סרט' ו'צילום מסך' או 'כיסוי מסך'. (החריג היחיד מתאר את התמונה שהם רצו לשכפל. )"

הפרופסור למשפטים אמר כי הנושא של חוק זכויות היוצרים קובע מי אחראי לתפוקות הפלגיאטריות הללו: יוצרי מודל הבינה המלאכותית או האנשים שביקשו ממודל הבינה המלאכותית לשחזר סצנה פופולרית.

"מודל הבינה המלאכותית הגנרטיבי מסוגל לייצר פלט מקורי, והוא גם מסוגל לשחזר סצנות הדומות לסצנות מקלט המוגן בזכויות יוצרים כאשר תתבקש", הסביר אוצ'ואה. "יש לנתח זאת כמקרה של הפרה תורמת: מי שהניע את המודל הוא המפר העיקרי, ויוצרי המודל אחראים רק אם נודע להם על ההפרה העיקרית והם לא נקטו בצעדים סבירים כדי להפסיק זה."

אוצ'ואה אמר שדגמי AI גנרטיביים נוטים יותר לשחזר תמונות ספציפיות כאשר יש מספר מקרים של תמונות אלו במערך נתוני האימון שלהם.

"במקרה הזה, זה מאוד לא סביר שנתוני האימון כללו סרטים שלמים; סביר הרבה יותר שנתוני ההדרכה כללו תמונות סטילס מהסרטים שהופצו כתמונות סטילס פרסומיות לסרט", אמר. "התמונות הללו שוחזרו מספר פעמים בנתוני ההדרכה מכיוון שאמצעי התקשורת עודדו להפיץ את התמונות הללו למטרות פרסום ועשו זאת.

"זה יהיה לא הוגן ביסודו של בעל זכויות יוצרים לעודד הפצה רחבה של תמונות סטילס למטרות פרסום, ואז להתלונן על כך שהתמונות הללו מוחקות על ידי AI מכיוון שנתוני ההדרכה כללו עותקים מרובים של אותן תמונות."

אוצ'ואה אמר שיש צעדים להגביל התנהגות כזו ממודלים של AI. "השאלה היא האם הם צריכים לעשות זאת, כאשר האדם שנכנס להנחיה רצה בבירור לגרום ל-AI לשחזר תמונה ניתנת לזיהוי, ואולפני הסרטים שהפיקו את התמונות הסטילס המקוריות רצו בבירור שתמונות הסטילס הללו יופצו באופן נרחב ," הוא אמר.

"שאלה טובה יותר תהיה: באיזו תדירות זה קורה כאשר ההנחיה לא מזכירה סרט ספציפי או מתארת ​​דמות או סצנה ספציפית? אני חושב שחוקר חסר פניות יגלה כי התשובה היא לעתים נדירות (אולי כמעט אף פעם).

עם זאת, נראה שתוכן המוגן בזכויות יוצרים הוא דלק חיוני ליצירת מודלים אלה לתפקד היטב.

OpenAI מגן על עצמו בפני הלורדים

בתגובה ל בירור על הסיכונים וההזדמנויות של מודלים בינה מלאכותית על ידי ועדת התקשורת והדיגיטל של בית הלורדים בבריטניה, OpenAI הציגה כְּנִיעָה [PDF] אזהרה שהדגמים שלו לא יעבדו ללא הכשרה לגבי תוכן המוגן בזכויות יוצרים.

"מכיוון שזכויות יוצרים כיום מכסות כמעט כל סוג של ביטוי אנושי - כולל פוסטים בבלוג, תמונות, פוסטים בפורומים, פיסות קוד תוכנה ומסמכים ממשלתיים - אי אפשר יהיה להכשיר את דגמי הבינה המלאכותית המובילים של היום מבלי להשתמש בחומרים המוגנים בזכויות יוצרים", נמסר במעבדת העל. .

"הגבלת נתוני ההדרכה לספרים וציורים ברשות הציבור שנוצרו לפני יותר ממאה שנה עשויה להניב ניסוי מעניין, אבל לא תספק מערכות בינה מלאכותית העונות על הצרכים של האזרחים של היום."

ה-AI biz אמר כי הוא מאמין שהוא עומד בחוק זכויות יוצרים וכי הכשרה על חומר המוגן בזכויות יוצרים היא חוקית, אם כי היא מאפשרת ש"יש עדיין עבודה לעשות כדי לתמוך ולהעצים יוצרים".

יש לשקול את הרגש הזה, שנשמע כמו הכרה דיפלומטית בחששות אתיים לגבי פיצוי על שימוש הוגן ביצירה המוגנת בזכויות יוצרים, יחד עם הטענה של דו"ח IEEE כי, "גילינו ראיות שמהנדס תוכנה בכיר ב-Midjourney לקח חלק ב שיחה בפברואר 2022 על איך להתחמק מחוק זכויות יוצרים על ידי 'הלבנת' נתונים 'דרך קודקס מכוונן'".

מרקוס, מחבר שותף של דו"ח IEEE, הביע ספקנות כלפי מאמציה של OpenAI להשיג אור ירוק רגולטורי בבריטניה לשיטות העסקיות הנוכחיות שלה.

"תרגום גס: אנחנו לא נהיה עשירים להפליא אם לא תתן לנו לגנוב, אז בבקשה אל תהפוך את הגניבה לפשע!" הוא כתב במדיה חברתית פוסט. "אל תגרום לנו לשלם הרשאה גם עמלות! בטוח שנטפליקס עשויה לשלם מיליארדים בשנה בדמי רישוי, אבל we לא צריך! עוד כסף בשבילנו, מור!"

OpenAI הציעה לשפות לקוחות ChatGPT ו-API ארגוניים נגד תביעות זכויות יוצרים, אם כי לא אם הלקוח או משתמשי הקצה של הלקוח "ידעו או היו צריכים לדעת שהפלט מפר או עשוי להפר" או אם הלקוח עקף את תכונות הבטיחות, בין שאר המגבלות. לפיכך, בקשה מ-DALL-E 3 לשחזר סצנת סרט מפורסמת - שמשתמשים צריכים לדעת שהיא כנראה מכוסה בזכויות יוצרים - לא תזכה בשיפוי.

מידג'ורני נקטה בגישה הפוכה, והבטיחה לצוד ולתבוע לקוחות המעורבים בהפרה כדי לגבות עלויות משפטיות הנובעות מתביעות קשורות.

"אם אתה מפר ביודעין קניין רוחני של מישהו אחר, וזה עולה לנו כסף, אנחנו הולכים למצוא אותך ולאסוף את הכסף הזה ממך", אמר Midjourney's תנאי שימוש באתר מדינה. "אולי גם נעשה דברים אחרים, כמו לנסות להשיג בית משפט שיחייב אותך לשלם את הוצאות המשפט שלנו. אל תעשה את זה." ®

בול זמן:

עוד מ הקופה