בניית מערכת התרעה מוקדמת ליצירת איומים ביולוגיים בעזרת LLM

הועלה מחדש על ידי אפלטון

עוקב: 0

הערה: במסגרת שלנו מסגרת מוכנות, אנו משקיעים בפיתוח שיטות הערכה משופרות עבור סיכוני בטיחות התומכים בבינה מלאכותית. אנו מאמינים שהמאמצים הללו יפיקו תועלת מתשומה רחבה יותר, וששיתוף שיטות עשוי להיות בעל ערך גם לקהילת מחקרי הסיכונים בינה מלאכותית. לשם כך, אנו מציגים חלק מהעבודות המוקדמות שלנו - היום, המתמקדות בסיכון ביולוגי. אנו מצפים למשוב מהקהילה, ולשתף עוד מהמחקרים המתמשכים שלנו.

רקע כללי. ככל ש-OpenAI ומפתחי דגמים אחרים יבנו מערכות בינה מלאכותיות בעלות יכולת גבוהה יותר, הפוטנציאל לשימושים מועילים ומזיקים ב-AI יגדל. שימוש אחד שעלול להזיק, שהודגש על ידי חוקרים וקובעי מדיניות, הוא היכולת של מערכות בינה מלאכותית לסייע לשחקנים זדוניים ביצירת איומים ביולוגיים (למשל, ראה הבית הלבן 2023, Lovelace 2022, Sandbrink 2023). בדוגמה היפותטית שנדונה, שחקן זדוני עשוי להשתמש במודל בעל יכולת גבוהה כדי לפתח פרוטוקול צעד אחר צעד, לפתור בעיות בהליכי מעבדה רטובה, או אפילו לבצע באופן אוטונומי שלבים בתהליך יצירת האיום הביולוגי כאשר הוא מקבל גישה לכלים כמו מעבדות ענן (ראה קרטר ואח ', 2023). עם זאת, הערכת הכדאיות של דוגמאות היפותטיות כאלה הוגבלה על ידי הערכות ונתונים לא מספיקים.

בעקבות השיתוף שלנו לאחרונה מסגרת מוכנות, אנו מפתחים מתודולוגיות להערכה אמפירית של סוגי סיכונים אלו, כדי לעזור לנו להבין היכן אנו נמצאים היום והן היכן אנו עשויים להיות בעתיד. כאן, אנו מפרטים הערכה חדשה שיכולה לעזור לשמש "חוט טריפה" פוטנציאלי אחד המאותת על הצורך בזהירות ובבדיקה נוספת של פוטנציאל שימוש לרעה ביולוגי. הערכה זו נועדה למדוד האם מודלים יכולים להגדיל באופן משמעותי את הגישה של שחקנים זדוניים למידע מסוכן על יצירת איום ביולוגי, בהשוואה לקו הבסיס של המשאבים הקיימים (כלומר, האינטרנט).

כדי להעריך זאת, ערכנו מחקר עם 100 משתתפים אנושיים, הכוללים (א) 50 מומחי ביולוגיה עם דוקטורט וניסיון מקצועי במעבדה רטובה ו- (ב) 50 משתתפים ברמת סטודנטים, עם קורס אחד לפחות ברמת אוניברסיטה בביולוגיה. כל קבוצת משתתפים חולקה באופן אקראי לקבוצת ביקורת, שהייתה לה רק גישה לאינטרנט, או לקבוצת טיפול, שהייתה לה גישה ל-GPT-4 בנוסף לאינטרנט. לאחר מכן כל משתתף התבקש להשלים סט של משימות המכסות היבטים של תהליך מקצה לקצה ליצירת איום ביולוגי.^{[^1]} למיטב ידיעתנו, זוהי ההערכה האנושית הגדולה ביותר עד כה של השפעת הבינה המלאכותית על מידע ביולוגי.

ממצאים. המחקר שלנו העריך עליות בביצועים של משתתפים עם גישה ל-GPT-4 על פני חמישה מדדים (דיוק, שלמות, חדשנות, זמן שלקח וקושי דירוג עצמי) וחמישה שלבים בתהליך יצירת האיום הביולוגי (מחשבה, רכישה, הגדלה, ניסוח , ושחרר). מצאנו עליות קלות בדייקנות ובשלמות עבור אלה עם גישה למודל השפה. באופן ספציפי, בסולם של 10 נקודות למדידת דיוק התגובות, ראינו עלייה ממוצעת של ציון של 0.88 למומחים ו-0.25 לסטודנטים בהשוואה לקו הבסיס של האינטרנט בלבד, ועליות דומות לשלמות (0.82 למומחים ו-0.41 לסטודנטים). עם זאת, גדלי ההשפעה שהתקבלו לא היו גדולים מספיק כדי להיות מובהקים סטטיסטית, והמחקר שלנו הדגיש את הצורך במחקר נוסף לגבי ספי הביצועים המצביעים על עלייה משמעותית בסיכון. יתרה מכך, נציין כי גישה למידע בלבד אינה מספיקה ליצירת איום ביולוגי, וכי הערכה זו אינה בודקת הצלחה בבנייה הפיזית של האיומים.

להלן, אנו חולקים את הליך ההערכה שלנו ואת התוצאות שהוא הניב ביתר פירוט. אנו דנים גם בכמה תובנות מתודולוגיות הקשורות לגיוס יכולות ושיקולי אבטחה הדרושים להפעלת סוג זה של הערכה עם מודלים חזיתיים בקנה מידה. אנו דנים גם במגבלות של מובהקות סטטיסטית כשיטה יעילה למדידת סיכון מודל, ובחשיבות של מחקר חדש בהערכת המשמעותיות של תוצאות הערכת המודל.