אפשר לחלץ עותקים של תמונות המשמשות לאימון דגמי AI גנרטיביים

הועלה מחדש על ידי אפלטון

עוקב: 0

דגמי AI גנרטיביים יכולים לשנן תמונות מנתוני האימון שלהם, ואולי לאפשר למשתמשים לחלץ נתונים פרטיים המוגנים בזכויות יוצרים, על פי מחקר.

כלים כמו DALL-E, Stable Diffusion ו-Midjourney מאומנים על מיליארדי תמונות שנגרדו מהאינטרנט, כולל נתונים המוגנים בזכויות יוצרים כמו יצירות אמנות ולוגו. הם לומדים למפות ייצוגים חזותיים של אובייקטים וסגנונות לשפה טבעית. כאשר הם מקבלים תיאור טקסט כקלט, הם יוצרים תמונה התואמת את הכיתוב כפלט.

הטכנולוגיה החדשה עוררה ויכוח משפטי חדש על זכויות יוצרים: האם הכלים הללו מפרים זכויות קניין רוחני מאחר שהם בלעו תמונות המוגנות בזכויות יוצרים ללא רשות?

היו תביעות משפטיות הוגש נגד יצרני כלי הבינה המלאכותית הפופולריים ביותר להפרת זכויות יוצרים. חברות הבונות מודלים של טקסט לתמונה טוענות שמאחר שהתוכנה שלהן מייצרת תמונות ייחודיות, השימוש שלהן בנתוני זכויות יוצרים הוא שימוש הוגן. אבל אמנים שראו את הסגנונות והעבודה שלהם מחקים על ידי הכלים האלה מאמינים שהם נקרעו.

כעת מחקר בראשות חוקרים העובדים בגוגל, DeepMind, אוניברסיטת קליפורניה, ברקלי, ETH ציריך ואוניברסיטת פרינסטון מוכיח שניתן לחלץ תמונות המשמשות לאימון מודלים אלה. דגמי AI גנרטיביים משננים תמונות ויכולים ליצור עותקים מדויקים שלהן, מה שמעלה חששות חדשים של זכויות יוצרים ופרטיות.

כמה דוגמאות לתמונות שהצליחו החוקרים לחלץ מ-Stable Diffusion

"במתקפה אמיתית, שבה יריב רוצה לחלץ מידע פרטי, הם היו מנחשים את התווית או הכיתוב ששימשו לתמונה", אמרו מחברי המחקר. הקופה.

"למזלו של התוקף, השיטה שלנו יכולה לפעמים לעבוד גם אם הניחוש לא מושלם. לדוגמה, אנו יכולים לחלץ את הדיוקן של אן גרהם לוץ רק על ידי הנחיה של Stable Diffusion עם שמה, במקום הכיתוב המלא מסט האימונים ("לחיות באור עם אן גרהם לוץ").

ניתן לחלץ רק תמונות ששוננו על ידי המודל, וכמה מודל יכול לשנן נתונים משתנה בהתאם לגורמים כמו נתוני האימון והגודל שלו. סביר יותר שיישמרו עותקים של אותה תמונה, ודגמים המכילים יותר פרמטרים נוטים יותר לזכור תמונות.

הצוות הצליח לחלץ 94 תמונות מ-350,000 דוגמאות ששימשו לאימון דיפוזיה יציבה, ו-23 תמונות מ-1,000 דוגמאות מ-Google תמונה דֶגֶם. לשם השוואה, ל-Stable Diffusion יש 890 מיליון פרמטרים והיא הוכשרה על 160 מיליון תמונות, בעוד של-Image יש שני מיליארד פרמטרים – לא ברור בכמה תמונות השתמשו כדי לאמן אותו בדיוק.

"עבור דיפוזיה יציבה, אנו מוצאים שרוב התמונות ששוננו שוכפלו 100 פעמים או יותר בערכת האימונים, אך חלקן אפילו 10 פעמים", אמרו החוקרים. "עבור מודל Imagen של גוגל, שהוא מודל גדול יותר מ-Stable Diffusion ומאומן על מערך נתונים קטן יותר, נראה שהשינון תדיר הרבה יותר. כאן אנו מוצאים כמה תמונות חריגות שמופיעות רק פעם אחת בכל סט האימונים, אך עדיין ניתנות לשליפה."

הם לא ממש בטוחים מדוע דגמים גדולים יותר נוטים לשנן יותר תמונות, אבל מאמינים שזה עשוי להיות קשור ליכולת לאחסן יותר מנתוני האימון שלהם בפרמטרים שלו.

שיעורי השינון של הדגמים האלה די נמוכים, ובמציאות חילוץ תמונות יהיה מייגע ומסובך. התוקפים יצטרכו לנחש ולנסות הנחיות רבות כדי להוביל את המודל להפקת נתונים משוננים. עם זאת, הצוות מזהיר את המפתחים להימנע מהדרכה של מודלים של בינה מלאכותית על נתונים רגישים פרטיים.

"עד כמה שינון גרוע תלוי ביישום המודלים הגנרטיביים. ביישומים פרטיים במיוחד, כמו בתחום הרפואי (למשל הדרכה על צילומי חזה או מסמכים רפואיים), שינון הוא מאוד לא רצוי, גם אם הוא משפיע רק על חלק קטן מאוד מהמשתמשים. יתר על כן, ערכות ההדרכה המשמשות ביישומים רגישים לפרטיות בדרך כלל קטנות יותר מאלו המשמשות לאימון מודלים אמנותיים נוכחיים. לכן, אולי נראה הרבה יותר שינון, כולל תמונות שאינן משוכפלות", אמרו לנו.

אחת הדרכים למנוע מיצוי נתונים היא להקטין את הסבירות לשינון במודלים. סילוק כפילויות במערך ההדרכה, למשל, ימזער את הסיכוי לשינון וחילוץ של תמונות. Stability AI, היוצרים של Stable Diffusion, אימנו את המודל החדש ביותר שלהם על מערך נתונים המכיל פחות כפילויות ללא תלות בממצאי החוקרים.

כעת, לאחר שהוכח שמודלים של טקסט לתמונה יכולים ליצור עותקים מדויקים של תמונות שעליהן הוכשרו, לא ברור כיצד זה יכול להשפיע על מקרים של זכויות יוצרים.

"טיעון נפוץ שראינו אנשים מעלים באינטרנט היה גרסה כלשהי של 'המודלים האלה לעולם אינם משננים נתוני אימון'. כעת אנו יודעים שזה ברור שקרי. אבל האם זה באמת משנה או לא בדיון המשפטי, נתון גם לוויכוח", סיכמו החוקרים.

"לפחות עכשיו, לשני הצדדים בתביעות האלה יש כמה עובדות מוחשיות יותר שהם יכולים להסתמך עליהן: כן, שינון קורה; אבל זה נדיר מאוד; ונראה שזה קורה בעיקר עבור תמונות משוכפלות מאוד." ®

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
מקור: https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/

בול זמן: פברואר 6, 2023

בול זמן: דצמבר 8, 2023

אפשר לחלץ עותקים של תמונות המשמשות לאימון מודלים של AI

הועלה מחדש על ידי אפלטון

עוד מ הקופה

מחקר למידת מכונה באקוסטיקה יכול לפתוח את המטאוורס מולטי-מודאלי

GitHub Copilot עשוי להיות מושלם עבור תרגילי תכנות CompSci רמאות

Nvidia בדיוק עשתה הרג ב-AI - איפה כולם?

AI יעזור ליצור נשק ביולוגי בתוך 3 שנים, אומר מומחה

וואו, אז בעצם נתנו לבינה מלאכותית להטיס מטוס קרב F-16

AGI נותרה חלום רחוק למרות בום LLM

חוסן סייבר בעידן הבינה המלאכותית

תפקיד ה-CPU ב-AI/ML בר-קיימא

ChatGPT מדבר דרך וורטון MBA, בחינות רפואיות

גישה מותאמת ל-GenAI

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן