אפשר לחלץ עותקים של תמונות המשמשות לאימון מודלים של AI

אפשר לחלץ עותקים של תמונות המשמשות לאימון מודלים של AI

צומת המקור: 1942543

דגמי AI גנרטיביים יכולים לשנן תמונות מנתוני האימון שלהם, ואולי לאפשר למשתמשים לחלץ נתונים פרטיים המוגנים בזכויות יוצרים, על פי מחקר.

כלים כמו DALL-E, Stable Diffusion ו-Midjourney מאומנים על מיליארדי תמונות שנגרדו מהאינטרנט, כולל נתונים המוגנים בזכויות יוצרים כמו יצירות אמנות ולוגו. הם לומדים למפות ייצוגים חזותיים של אובייקטים וסגנונות לשפה טבעית. כאשר הם מקבלים תיאור טקסט כקלט, הם יוצרים תמונה התואמת את הכיתוב כפלט.

הטכנולוגיה החדשה עוררה ויכוח משפטי חדש על זכויות יוצרים: האם הכלים הללו מפרים זכויות קניין רוחני מאחר שהם בלעו תמונות המוגנות בזכויות יוצרים ללא רשות?

היו תביעות משפטיות הוגש נגד יצרני כלי הבינה המלאכותית הפופולריים ביותר להפרת זכויות יוצרים. חברות הבונות מודלים של טקסט לתמונה טוענות שמאחר שהתוכנה שלהן מייצרת תמונות ייחודיות, השימוש שלהן בנתוני זכויות יוצרים הוא שימוש הוגן. אבל אמנים שראו את הסגנונות והעבודה שלהם מחקים על ידי הכלים האלה מאמינים שהם נקרעו.

כעת מחקר בראשות חוקרים העובדים בגוגל, DeepMind, אוניברסיטת קליפורניה, ברקלי, ETH ציריך ואוניברסיטת פרינסטון מוכיח שניתן לחלץ תמונות המשמשות לאימון מודלים אלה. דגמי AI גנרטיביים משננים תמונות ויכולים ליצור עותקים מדויקים שלהן, מה שמעלה חששות חדשים של זכויות יוצרים ופרטיות.

מחקר_חילוץ_דיפוזיה

כמה דוגמאות לתמונות שהצליחו החוקרים לחלץ מ-Stable Diffusion

"במתקפה אמיתית, שבה יריב רוצה לחלץ מידע פרטי, הם היו מנחשים את התווית או הכיתוב ששימשו לתמונה", אמרו מחברי המחקר. הקופה.

"למזלו של התוקף, השיטה שלנו יכולה לפעמים לעבוד גם אם הניחוש לא מושלם. לדוגמה, אנו יכולים לחלץ את הדיוקן של אן גרהם לוץ רק על ידי הנחיה של Stable Diffusion עם שמה, במקום הכיתוב המלא מסט האימונים ("לחיות באור עם אן גרהם לוץ").

דיפוזיה_חילוץ_מחקר_2

ניתן לחלץ רק תמונות ששוננו על ידי המודל, וכמה מודל יכול לשנן נתונים משתנה בהתאם לגורמים כמו נתוני האימון והגודל שלו. סביר יותר שיישמרו עותקים של אותה תמונה, ודגמים המכילים יותר פרמטרים נוטים יותר לזכור תמונות.

הצוות הצליח לחלץ 94 תמונות מ-350,000 דוגמאות ששימשו לאימון דיפוזיה יציבה, ו-23 תמונות מ-1,000 דוגמאות מ-Google תמונה דֶגֶם. לשם השוואה, ל-Stable Diffusion יש 890 מיליון פרמטרים והיא הוכשרה על 160 מיליון תמונות, בעוד של-Image יש שני מיליארד פרמטרים – לא ברור בכמה תמונות השתמשו כדי לאמן אותו בדיוק.

"עבור דיפוזיה יציבה, אנו מוצאים שרוב התמונות ששוננו שוכפלו 100 פעמים או יותר בערכת האימונים, אך חלקן אפילו 10 פעמים", אמרו החוקרים. "עבור מודל Imagen של גוגל, שהוא מודל גדול יותר מ-Stable Diffusion ומאומן על מערך נתונים קטן יותר, נראה שהשינון תדיר הרבה יותר. כאן אנו מוצאים כמה תמונות חריגות שמופיעות רק פעם אחת בכל סט האימונים, אך עדיין ניתנות לשליפה."

הם לא ממש בטוחים מדוע דגמים גדולים יותר נוטים לשנן יותר תמונות, אבל מאמינים שזה עשוי להיות קשור ליכולת לאחסן יותר מנתוני האימון שלהם בפרמטרים שלו.

שיעורי השינון של הדגמים האלה די נמוכים, ובמציאות חילוץ תמונות יהיה מייגע ומסובך. התוקפים יצטרכו לנחש ולנסות הנחיות רבות כדי להוביל את המודל להפקת נתונים משוננים. עם זאת, הצוות מזהיר את המפתחים להימנע מהדרכה של מודלים של בינה מלאכותית על נתונים רגישים פרטיים.

"עד כמה שינון גרוע תלוי ביישום המודלים הגנרטיביים. ביישומים פרטיים במיוחד, כמו בתחום הרפואי (למשל הדרכה על צילומי חזה או מסמכים רפואיים), שינון הוא מאוד לא רצוי, גם אם הוא משפיע רק על חלק קטן מאוד מהמשתמשים. יתר על כן, ערכות ההדרכה המשמשות ביישומים רגישים לפרטיות בדרך כלל קטנות יותר מאלו המשמשות לאימון מודלים אמנותיים נוכחיים. לכן, אולי נראה הרבה יותר שינון, כולל תמונות שאינן משוכפלות", אמרו לנו.

אחת הדרכים למנוע מיצוי נתונים היא להקטין את הסבירות לשינון במודלים. סילוק כפילויות במערך ההדרכה, למשל, ימזער את הסיכוי לשינון וחילוץ של תמונות. Stability AI, היוצרים של Stable Diffusion, אימנו את המודל החדש ביותר שלהם על מערך נתונים המכיל פחות כפילויות ללא תלות בממצאי החוקרים.

כעת, לאחר שהוכח שמודלים של טקסט לתמונה יכולים ליצור עותקים מדויקים של תמונות שעליהן הוכשרו, לא ברור כיצד זה יכול להשפיע על מקרים של זכויות יוצרים.

"טיעון נפוץ שראינו אנשים מעלים באינטרנט היה גרסה כלשהי של 'המודלים האלה לעולם אינם משננים נתוני אימון'. כעת אנו יודעים שזה ברור שקרי. אבל האם זה באמת משנה או לא בדיון המשפטי, נתון גם לוויכוח", סיכמו החוקרים.

"לפחות עכשיו, לשני הצדדים בתביעות האלה יש כמה עובדות מוחשיות יותר שהם יכולים להסתמך עליהן: כן, שינון קורה; אבל זה נדיר מאוד; ונראה שזה קורה בעיקר עבור תמונות משוכפלות מאוד." ®

בול זמן:

עוד מ הקופה