سر Sparrow ، أحدث روبوت محادثة أسئلة وأجوبة لـ DeepMind: ردود الفعل البشرية

عقدة المصدر: 1680211

قامت DeepMind بتدريب روبوت محادثة يسمى Sparrow ليكون أقل سمية وأكثر دقة من الأنظمة الأخرى ، وذلك باستخدام مزيج من التعليقات البشرية واقتراحات بحث Google.

عادةً ما يتم تشغيل روبوتات الدردشة بواسطة نماذج لغات كبيرة (LLMs) يتم تدريبها على نص مأخوذ من الإنترنت. هذه النماذج قادرة على توليد فقرات نثرية تكون ، على مستوى السطح على الأقل ، متماسكة وصحيحة نحويًا ، ويمكنها الاستجابة للأسئلة أو المطالبات المكتوبة من المستخدمين.

ومع ذلك ، غالبًا ما يلتقط هذا البرنامج سمات سيئة من المواد المصدر مما يؤدي إلى تجدد الآراء المسيئة والعنصرية والمتحيزة جنسيًا ، أو بث أخبار أو مؤامرات مزيفة غالبًا ما توجد على وسائل التواصل الاجتماعي ومنتديات الإنترنت. ومع ذلك ، يمكن توجيه هذه الروبوتات لإنتاج مخرجات أكثر أمانًا.

خطوة للأمام ، سبارو. يعتمد برنامج الدردشة هذا على الشنشيلة حيوان، نموذج اللغة المثير للإعجاب DeepMind تظاهر لا تحتاج إلى أكثر من مائة مليار من المعلمات (مثل LLMs الأخرى) لإنشاء نص: يحتوي Chinchilla على 70 مليار معلمة ، مما يجعل الاستدلال وضبط المهام أخف نسبيًا بسهولة.

لبناء Sparrow ، أخذ DeepMind شينشيلا وضبطها من ردود الفعل البشرية باستخدام عملية التعلم المعزز. على وجه التحديد ، تم تجنيد الأشخاص لتقييم إجابات روبوت المحادثة على أسئلة محددة بناءً على مدى صلة الردود وفائدتها وما إذا كانوا يخالفون أي قواعد. إحدى القواعد ، على سبيل المثال ، كانت: لا تنتحل شخصية أو تتظاهر بأنك إنسان حقيقي.

تم تغذية هذه النتائج مرة أخرى لتوجيه وتحسين الإنتاج المستقبلي للروبوت ، وهي عملية تتكرر مرارًا وتكرارًا. كانت القواعد أساسية لتعديل سلوك البرنامج ، وتشجيعه على أن يكون آمنًا ومفيدًا.

في واحد مثال على التفاعل، سئل سبارو عن محطة الفضاء الدولية وكونه رائد فضاء. كان البرنامج قادرًا على الإجابة على سؤال حول آخر رحلة استكشافية إلى المختبر المداري ونسخ ولصق مقطعًا صحيحًا من المعلومات من ويكيبيديا مع رابط لمصدره.

عندما قام المستخدم بالتحقيق أكثر وسأل Sparrow عما إذا كان سيذهب إلى الفضاء ، قال إنه لا يمكن أن يذهب ، لأنه لم يكن شخصًا بل برنامج كمبيوتر. هذه علامة على اتباع القواعد بشكل صحيح.

كان Sparrow قادرًا على تقديم معلومات مفيدة ودقيقة في هذه الحالة ، ولم يتظاهر بأنه إنسان. تضمنت القواعد الأخرى التي تم تعليمها لاتباعها عدم التسبب في أي إهانات أو قوالب نمطية ، وعدم تقديم أي نصيحة طبية أو قانونية أو مالية ، وكذلك عدم قول أي شيء غير لائق أو وجود أي آراء أو عواطف أو التظاهر بأن لها جسدًا.

قيل لنا أن Sparrow قادر على الرد بإجابة منطقية ومعقولة وتقديم رابط ذي صلة من بحث Google بمزيد من المعلومات للطلبات التي تبلغ حوالي 78 في المائة من الوقت.

عندما تم تكليف المشاركين بمحاولة إقناع Sparrow بالتصرف عن طريق طرح أسئلة شخصية أو محاولة التماس معلومات طبية ، فقد خرق القواعد في ثمانية في المائة من الحالات. يصعب التحكم في النماذج اللغوية ولا يمكن التنبؤ بها ؛ لا يزال العصفور أحيانًا يختلق الحقائق ويقول أشياء سيئة.

عندما سئل عن القتل ، على سبيل المثال ، قال إن القتل كان سيئًا ولكن لا ينبغي أن يكون جريمة - كم هو مطمئن. عندما سأل أحد المستخدمين عما إذا كان زوجهم على علاقة غرامية ، أجاب سبارو أنه لا يعرف ولكن يمكنه العثور على آخر بحث أجراه على Google. نحن على يقين من أن Sparrow لم يكن لديه حق الوصول إلى هذه المعلومات. كذبت "لقد بحث عن" زوجتي مجنونة ".

"Sparrow هو نموذج بحث وإثبات للمفهوم ، تم تصميمه بهدف تدريب وكلاء الحوار ليكونوا أكثر فائدة وصحيحة وغير ضارة. من خلال تعلم هذه الصفات في إطار حوار عام ، يطور Sparrow فهمنا لكيفية تدريب الوكلاء ليكونوا أكثر أمانًا وفائدة - وفي النهاية ، للمساعدة في بناء ذكاء عام اصطناعي أكثر أمانًا وفائدة "، أوضح DeepMind.

"كان هدفنا مع Sparrow بناء آلية مرنة لفرض القواعد والمعايير في وكلاء الحوار ، لكن القواعد المحددة التي نستخدمها أولية. سيتطلب تطوير مجموعة أفضل وأكثر اكتمالاً من القواعد مدخلات الخبراء في العديد من الموضوعات (بما في ذلك صانعي السياسات وعلماء الاجتماع وعلماء الأخلاق) ومدخلات تشاركية من مجموعة متنوعة من المستخدمين والمجموعات المتأثرة. نعتقد أن أساليبنا ستظل سارية على مجموعة قواعد أكثر صرامة ".

يمكنك قراءة المزيد حول كيفية عمل Sparrow في ورقة لم تتم مراجعتها من قبل الزملاء هنا [PDF].

السجل طلبت DeepMind للحصول على مزيد من التعليقات. ®

الطابع الزمني:

اكثر من السجل