הודות לבינה מלאכותית גנרטיבית, תפיסת מדע הונאה הולך להיות הרבה יותר קשה

הועלה מחדש על ידי אפלטון

עוקב: 0

מאפיין בינה מלאכותית גנרית מציבה אתגרים מעניינים עבור מפרסמים אקדמיים המתמודדים עם הונאה במאמרים מדעיים, שכן הטכנולוגיה מראה את הפוטנציאל להטעות ביקורת עמיתים אנושית.

תאר תמונה עבור DALL-E, Stable Diffusion ו-Midjourney, והם יפיקו אחת תוך שניות. מערכות הטקסט לתמונה הללו השתפרו במהירות במהלך השנים האחרונות ומה שהתחיל בתחילה כאב טיפוס מחקרי, שיצר שפיר ומוזר להפליא איורים של צנוניות דייקון תינוקות מטיילות עם כלבים בשנת 2021, הפכה מאז לתוכנה מסחרית, שנבנתה על ידי חברות של מיליארדי דולרים, המסוגלת ליצור תמונות ריאליסטיות יותר ויותר.

מודלים אלה של AI יכולים לייצר תמונות דמויות חיים של פנים, חפצים וסצינות אנושיות, וזה נראה כמו עניין של זמן עד שהם יצליחו ליצור גם תמונות ונתונים מדעיים משכנעים. מודלים של טקסט לתמונה נגישים כעת באופן נרחב, די זולים לשימוש, והם יכולים לעזור למדענים מפוקפקים לגבש תוצאות ולפרסם מחקר מדומה ביתר קלות.

מניפולציה של תמונה היא כבר דאגה עליונה עבור מפרסמים אקדמיים כפי שהיא הכי הרבה צורה נפוצה של התנהגות בלתי הולמת מדעית בזמן האחרון. מחברים יכולים להשתמש בכל מיני טריקים, כמו היפוך, סיבוב או חיתוך חלקים של אותה תמונה כדי לזייף נתונים. עורכים שוללים להאמין שכל התוצאות המוצגות הן אמיתיות ויפרסמו את עבודתם.

מפרסמים רבים פונים כעת לתוכנת AI בניסיון לעשות זאת לאתר סימנים של שכפול תמונה במהלך תהליך הסקירה. ברוב המקרים, תמונות שוכפלו בטעות על ידי מדענים שערבשו את הנתונים שלהם, אבל לפעמים הם משמשים להונאה בוטה.

אבל בדיוק כשבעלי אתרים מתחילים להשתלט על שכפול תמונות, צץ איום נוסף. חוקרים מסוימים עשויים להתפתות להשתמש במודלים של בינה מלאכותית כדי ליצור נתונים מזויפים. למעשה, יש עדויות שמצביעות על כך שמדענים מדומים כבר עושים זאת.

תמונות מתוצרת בינה מלאכותית שזוהו בעיתונים?

בשנת 2019, DARPA השיקה את ה-Semantic Forensics שלה (SemaFor), מממנת חוקרים המפתחים כלים פורנזיים המסוגלים לזהות מדיה מתוצרת בינה מלאכותית, כדי להילחם בדיסאינפורמציה.

דובר של סוכנות המחקר הביטחונית של הדוד סם אישר שהוא זיהה תמונות רפואיות מזויפות שפורסמו בעיתונים מדעיים אמיתיים, שנראה כאילו נוצרו באמצעות AI. לפני מודלים של טקסט לתמונה, רשתות יריבות יצירתיות היו פופולריות. DARPA הבינה שהמודלים הללו, הידועים בעיקר ביכולתם ליצור זיופים עמוקים, יכולים גם לזייף תמונות של סריקות רפואיות, תאים או סוגים אחרים של תמונות שנמצאו לעתים קרובות במחקרים ביו-רפואיים.

"נוף האיומים נע די מהר", אמר ויליאם קורווי, מנהל התוכנית של SemaFor הקופה. "הטכנולוגיה הופכת נפוצה בכל מקום למטרות טובות". קורווי אמר שלסוכנות הייתה הצלחה מסוימת בפיתוח תוכנה המסוגלת לזהות תמונות מתוצרת GAN, והכלים עדיין בפיתוח.

נוף האיומים נע במהירות

"יש לנו תוצאות המצביעות על כך שאתה יכול לזהות 'אחים או בני דודים רחוקים' של המנגנון היצירתי שלמדת לזהות בעבר, ללא קשר לתוכן התמונות שנוצרו. SemaFor Analytics מסתכל על מגוון ייחוסים ופרטים הקשורים למדיה שעברה מניפולציות , הכל ממטא נתונים, אנומליות סטטיסטיות, ועד לייצוגים חזותיים יותר", אמר.

כמה מנתחי תמונות שבדקו נתונים במאמרים מדעיים נתקלו גם במה שנראה כמו תמונות שנוצרו על ידי GAN. GAN הוא רשת יריבות יוצרת, סוג של מערכת למידת מכונה שיכולה ליצור כתיבה, מוזיקה, תמונות ועוד.

לדוגמה, ג'ניפר ביירן, פרופסור לאונקולוגיה מולקולרית באוניברסיטת סידני, וג'אנה כריסטופר, מנתחת שלמות תמונה של מוציא לאור של כתב העת EMBO Press, נתקלו בסט מוזר של תמונות שהופיעו ב-17 מחקרים הקשורים לביו-כימיה.

התמונות תיארו סדרה של להקות הידוע בכינויו כתמים מערביים, המעידים על נוכחות של חלבונים ספציפיים בדגימה, שלמרבה הפלא נראה היה שלכולם יש את אותו הרקע. זה לא אמור לקרות.

איור א' מתוך המאמר של ביירן-כריסטופר על ניירות חשודים

דוגמאות לרקעים חוזרים בתמונות כתם מערבי, המודגשות על ידי קווי המתאר האדומים והירוקים ... מקור: בירן, כריסטופר 2020

בשנת 2020, בירן וכריסטופר הגיעו למסקנה שהתמונות החשודות כנראה הופקו כחלק מפעולת מפעל נייר: מאמץ לייצר מאמרים על מחקרים ביו-כימיים תוך שימוש בנתונים מזויפים, ולגרום לביקורת עמיתים ולפרסם אותם. צלפה כזו עשויה להימשך, למשל, לטובת אקדמאים שמתוגמלים על סמך תפוקת העבודה המקובלת שלהם, או כדי לעזור למחלקה להגיע למכסה של דוחות שפורסמו.

"הכתמים בדוגמה המוצגת ב העיתון שלנו ככל הנראה נוצרות מחשב", אמר כריסטופר הקופה.

לעתים קרובות אני נתקל בתמונות בעלות מראה מזויף, בעיקר בכתמים מערביים, אבל יותר ויותר גם בתמונות מיקרוסקופיות

"בניירות הקרנה הן לפני הפרסום והן לאחר הפרסום, אני נתקל לעתים קרובות בתמונות בעלות מראה מזויף, בעיקר בכתמים מערביים, אך יותר ויותר גם בתמונות מיקרוסקופיות. אני מאוד מודע לכך שרבות מהן נוצרות ככל הנראה באמצעות GANs."

אליזבת ביק, בוחנת תמונה עצמאית, יכולה לעתים קרובות לדעת מתי גם התמונות עברו מניפולציות. היא נוקבת בכתבי יד של נייר מדעי, מחפשת תמונות משוכפלות, ומסמנת את הנושאים הללו לעורכי כתבי העת כדי לבחון אותם עוד יותר. אבל קשה יותר להילחם בתמונות מזויפות כאשר הן נוצרו באופן מקיף על ידי אלגוריתם.

היא ציינה שלמרות שהרקע החוזר בתמונות המודגשות במחקר של ביירן וכריסטופר הוא סימן מובהק לזיוף, הכתמים המערביים עצמם הם ייחודיים. תוכנת הראייה הממוחשבת שבה Bik משתמשת כדי לסרוק ניירות ולאתר הונאת תמונות תתקשה לסמן את הרצועות הללו מכיוון שאין כפילויות של הכתמים בפועל.

"לעולם לא נמצא חפיפה. כולם, אני מאמינה, עשויים באופן מלאכותי. איך בדיוק, אני לא בטוחה", אמרה הקופה.

קל יותר ליצור תמונות מזויפות עם דגמי הבינה המלאכותית העדכנית ביותר

GANs נעקרו ברובם על ידי מודלים של דיפוזיה. מערכות אלו מייצרות תמונות ייחודיות ומעצימות את תוכנת הטקסט לתמונה של היום, כולל DALL-E, Stable Diffusion ו-Midjourney. הם לומדים למפות את הייצוג החזותי של אובייקטים ומושגים לשפה טבעית, ויכולים להוריד משמעותית את המחסום לבגידות אקדמיות.

מדענים יכולים פשוט לתאר איזה סוג של נתונים כוזבים הם רוצים שייווצרו, והכלים האלה יעשו זאת עבורם. עם זאת, כרגע הם עדיין לא יכולים ליצור תמונות מדעיות בעלות מראה מציאותי. לפעמים הכלים מייצרים אשכולות של תאים שנראים משכנעים במבט ראשון, אבל נכשלים כישלון חרוץ בכל הנוגע לכתמים מערביים.

זה מסוג הדברים שתוכניות הבינה המלאכותית האלה יכולות ליצור:

הנה מה @OpenAIשל DALL-E עושה עם הנחיות תאים ביולוגיים
באופן ספציפי: "תאים תחת מיקרוסקופ" ו"תאי T תחת מיקרוסקופ אלקטרוני סורק" pic.twitter.com/BgcZr3k5Q5
- טארה באסו טריוודי (@tbt94) אוגוסט

לוויליאם גיבסון - רופא-מדען ועמית אונקולוגיה רפואית, לא המחבר המפורסם - יש דוגמאות נוספות כאן, כולל איך הדוגמניות של היום נאבקות עם הרעיון של כתם מערבי.

עם זאת, הטכנולוגיה רק משתפרת, כאשר מפתחים מאמנים דגמים גדולים יותר על נתונים רבים יותר.

דיוויד בימלר, מומחה נוסף לזיהוי מניפולציות תמונות במאמרים מדעיים, הידוע יותר בשם Smut Clyde, אמר לנו: "Papermillers ימחישו את המוצרים שלהם בכל השיטה הזולה והמהירה ביותר, תוך הסתמכות על חולשות בתהליך ביקורת עמיתים".

"הם יכולים פשוט להעתיק [כתמים מערביים] מעיתונים ישנים יותר, אבל אפילו זה כרוך בעבודה על חיפוש בעיתונים ישנים. כרגע, אני חושד, השימוש ב-GAN הוא עדיין מאמץ מסוים. למרות שזה ישתנה", הוסיף.

DARPA מחפשת כעת להרחיב את תוכנית SemaFor שלה ללימוד מערכות טקסט לתמונה. "סוגים אלה של דגמים חדשים למדי ובעוד שהם בהיקף, אינם חלק מהעבודה הנוכחית שלנו על SemaFor," אמר קורווי.

"עם זאת, מעריכים של SemaFor עשויים לבחון את המודלים הללו במהלך שלב ההערכה הבא של התוכנית החל בסתיו 2023."

בינתיים, איכות המחקר המדעי תישחק אם מפרסמים אקדמיים לא ימצאו דרכים לזהות תמונות מזויפות שנוצרו על ידי AI בעיתונים. בתרחיש הטוב ביותר, צורה זו של הונאה אקדמית תוגבל רק לתוכניות של מפעל נייר שממילא לא זוכות לתשומת לב רבה. בתרחיש הגרוע ביותר, זה ישפיע אפילו על כתבי העת הנחשבים ביותר ומדענים עם כוונות טובות יבזבזו זמן וכסף במרדף אחר רעיונות כוזבים שהם מאמינים שהם נכונים. ®