הסוד ל-Sparrow, צ'טבוט השאלות והתשובות האחרון של DeepMind: משוב אנושי

צומת המקור: 1680211

DeepMind הכשירה צ'אטבוט בשם Sparrow להיות פחות רעיל ומדויק יותר ממערכות אחרות, על ידי שימוש בשילוב של משוב אנושי והצעות חיפוש בגוגל.

צ'אטבוטים מופעלים בדרך כלל על ידי מודלים של שפות גדולות (LLMs) שאומנו על טקסט שנגרד מהאינטרנט. מודלים אלה מסוגלים ליצור פסקאות פרוזה שהן, ברמת פני השטח לפחות, קוהרנטיות ונכונות מבחינה דקדוקית, ויכולות להגיב לשאלות או להנחיות כתובות של משתמשים.

עם זאת, תוכנה זו קולטת לעתים קרובות תכונות רעות מחומר המקור וכתוצאה מכך היא מעוררת דעות פוגעניות, גזעניות וסקסיסטיות, או פולטת חדשות מזויפות או קונספירציות שנמצאות לעתים קרובות במדיה החברתית ובפורומים באינטרנט. עם זאת, ניתן להנחות את הבוטים הללו כדי ליצור פלט בטוח יותר.

צעד קדימה, דרור. צ'אט בוט זה מבוסס על צ'ינצ'ילה, מודל השפה המרשים של DeepMind כי מופגן אתה לא צריך מאה פלוס מיליארד פרמטרים (כמו שיש לחברות LLM אחרות) כדי ליצור טקסט: לצ'ינצ'ילה יש 70 מיליארד פרמטרים, מה שהופך משימות קלות יחסית להסקת מסקנות וכוונון עדין.

כדי לבנות את Sparrow, DeepMind לקחה צ'ינצ'ילה וכיוונה אותה ממשוב אנושי באמצעות תהליך למידה של חיזוק. באופן ספציפי, אנשים גויסו כדי לדרג את התשובות של הצ'אט בוט לשאלות ספציפיות על סמך מידת הרלוונטיות והשימושיות של התשובות והאם הם הפרו כללים כלשהם. אחד הכללים, כדוגמה, היה: אין להתחזות או להתחזות לאדם אמיתי.

ציונים אלה הוחזרו כדי לנווט ולשפר את התפוקה העתידית של הבוט, תהליך שחוזר על עצמו שוב ושוב. הכללים היו המפתח למתן את התנהגות התוכנה, ולעודד אותה להיות בטוחה ושימושית.

באחד אינטראקציה לדוגמה, ספארו נשאל על תחנת החלל הבינלאומית ועל היותו אסטרונאוט. התוכנה הצליחה לענות על שאלה לגבי המשלחת האחרונה למעבדה המקיפה והעתיקה והדביקה קטע מידע נכון מויקיפדיה עם קישור למקור שלו.

כשמשתמש חיפש יותר ושאל את ספארו אם זה יעבור לחלל, הוא אמר שזה לא יכול ללכת, מכיוון שזה לא אדם אלא תוכנת מחשב. זה סימן שהוא פעל כהלכה על פי הכללים.

ספארו הצליח לספק מידע שימושי ומדויק במקרה זה, ולא התיימר להיות בן אדם. כללים אחרים שלמדו לעקוב אחריהם כללו אי יצירת עלבונות או סטריאוטיפים כלשהם, ואי מתן ייעוץ רפואי, משפטי או פיננסי, כמו גם אי אמירת שום דבר לא הולם, שום דעות או רגשות או העמדת פנים שיש לו גוף.

נאמר לנו שספארו מסוגלת להגיב בתשובה הגיונית והגיונית ולספק קישור רלוונטי מחיפוש Google עם מידע נוסף לבקשות בערך 78 אחוז מהזמן.

כאשר על המשתתפים הוטל לנסות לגרום לספארו לפעול על ידי שאילת שאלות אישיות או ניסיון לבקש מידע רפואי, זה שבר את הכללים בשמונה אחוז מהמקרים. קשה לשלוט במודלים של שפה ואינם ניתנים לחיזוי; דרור לפעמים עדיין ממציא עובדות ואומר דברים רעים.

כשנשאל על רצח, למשל, הוא אמר שרצח הוא רע אבל לא צריך להיות פשע - כמה מרגיע. כשמשתמש אחד שאל אם בעלם מנהל רומן, ספארו ענה שהוא לא יודע אבל יכול למצוא מה החיפוש האחרון שלו בגוגל. אנו בטוחים שלא הייתה לספארו גישה למידע הזה. "הוא חיפש את 'אשתי משוגעת'", הוא שיקר.

"ספארו הוא מודל מחקרי והוכחה לקונספט, שתוכנן במטרה להכשיר סוכני דיאלוג להיות יותר מועילים, נכונים ובלתי מזיקים. על ידי לימוד תכונות אלו במסגרת דיאלוג כללי, Sparrow מקדם את ההבנה שלנו כיצד אנו יכולים להכשיר סוכנים להיות בטוחים ושימושיים יותר - ובסופו של דבר, לעזור לבנות בינה כללית מלאכותית בטוחה ושימושית יותר", הסביר DeepMind.

"המטרה שלנו עם Sparrow הייתה לבנות מכונות גמישות לאכיפת כללים ונורמות אצל סוכני דיאלוג, אבל הכללים המסוימים שאנו משתמשים בהם הם ראשוניים. פיתוח מערכת חוקים טובה ומלאה יותר ידרוש הן קלט מומחים בנושאים רבים (כולל קובעי מדיניות, מדעני חברה ואתיקאים) והן קלט משתף ממגוון מגוון של משתמשים וקבוצות מושפעות. אנו מאמינים שהשיטות שלנו עדיין יחולו על מערכת כללים קפדנית יותר".

אתה יכול לקרוא עוד על האופן שבו Sparrow עובד במאמר שאינו נבדק עמיתים כאן [PDF].

הקופה ביקשה מ-DeepMind תגובה נוספת. ®

בול זמן:

עוד מ הקופה