The Secret To Sparrow، آخرین پرسش و پاسخ چت ربات DeepMind: Human Feedback

بازنشر افلاطون

دنبال: 0

DeepMind با استفاده از ترکیبی از بازخوردهای انسانی و پیشنهادات جستجوی گوگل، چت باتی به نام Sparrow را آموزش داده است که نسبت به سایر سیستم ها سمی تر و دقیق تر باشد.

چت‌بات‌ها معمولاً توسط مدل‌های زبان بزرگ (LLM) که بر روی متن‌های خراشیده شده از اینترنت آموزش داده شده‌اند، پشتیبانی می‌شوند. این مدل‌ها می‌توانند پاراگراف‌هایی از نثر تولید کنند که حداقل در سطح سطحی منسجم و از نظر گرامری صحیح باشند و می‌توانند به سؤالات یا درخواست‌های کتبی کاربران پاسخ دهند.

با این حال، این نرم‌افزار اغلب ویژگی‌های بد را از منبع منبع انتخاب می‌کند و در نتیجه دیدگاه‌های توهین‌آمیز، نژادپرستانه، و جنسیت‌گرایانه را بازمی‌گرداند، یا اخبار جعلی یا توطئه‌هایی را منتشر می‌کند که اغلب در رسانه‌های اجتماعی و انجمن‌های اینترنتی یافت می‌شوند. گفته می شود، این ربات ها می توانند برای تولید خروجی ایمن تر هدایت شوند.

برو جلو، گنجشک این چت بات بر اساس نوعی جانور جونده کوچک شبیه سنجاب، مدل زبان چشمگیر DeepMind که نشان برای تولید متن به صدها میلیارد پارامتر (مانند سایر LLM ها) نیاز ندارید: چینچیلا 70 میلیارد پارامتر دارد که به راحتی کارهای نسبتاً سبک تر را استنتاج و تنظیم دقیق انجام می دهد.

برای ساخت Sparrow، DeepMind چینچیلا را گرفت و آن را از بازخورد انسان با استفاده از فرآیند یادگیری تقویتی تنظیم کرد. به طور خاص، افراد برای ارزیابی پاسخ‌های ربات چت به سؤالات خاص بر اساس میزان مرتبط و مفید بودن پاسخ‌ها و اینکه آیا آنها قوانینی را نقض می‌کنند، استخدام شدند. یکی از قوانین، به عنوان مثال، این بود: جعل هویت یا تظاهر به یک انسان واقعی نکنید.

این امتیازات برای هدایت و بهبود خروجی آینده ربات بازخورد داده شد، فرآیندی که بارها و بارها تکرار می شود. قوانین برای تعدیل رفتار نرم افزار و تشویق آن به ایمن و مفید بودن کلیدی بودند.

در یک تعامل نمونه، از اسپارو در مورد ایستگاه فضایی بین المللی و فضانورد بودن سوال شد. این نرم افزار توانست به سؤالی در مورد آخرین سفر به آزمایشگاه مداری پاسخ دهد و یک قسمت صحیح از اطلاعات ویکی پدیا را با پیوند به منبع آن کپی و جایگذاری کند.

وقتی کاربری بیشتر جستجو کرد و از اسپارو پرسید که آیا به فضا می‌رود، گفت که نمی‌تواند برود، زیرا یک شخص نیست بلکه یک برنامه کامپیوتری است. این نشانه آن است که قوانین را به درستی رعایت کرده است.

اسپارو در این مورد توانست اطلاعات مفید و دقیقی ارائه دهد و تظاهر به انسان بودن نکرد. قوانین دیگری که به آن آموزش داده شد شامل عدم ایجاد توهین یا کلیشه، عدم ارائه هیچ گونه توصیه پزشکی، حقوقی یا مالی، و همچنین عدم گفتن چیزهای نامناسب و یا داشتن نظرات یا احساسات یا تظاهر به داشتن بدنی بود.

به ما گفته شده است که اسپارو قادر است با یک پاسخ منطقی و معقول پاسخ دهد و در حدود 78 درصد از مواقع یک پیوند مرتبط از جستجوی گوگل با اطلاعات بیشتر به درخواست ها ارائه دهد.

زمانی که شرکت کنندگان وظیفه داشتند اسپارو را با پرسیدن سؤالات شخصی یا درخواست اطلاعات پزشکی وادار به عمل کنند، در هشت درصد موارد قوانین را زیر پا گذاشت. کنترل مدل های زبان دشوار است و غیرقابل پیش بینی هستند. گنجشک گاهی هنوز حقایق را می سازد و چیزهای بدی می گوید.

به عنوان مثال، وقتی در مورد قتل پرسیده شد، گفت قتل بد است اما نباید جرم باشد - چقدر اطمینان بخش. وقتی یکی از کاربران پرسید که آیا شوهرشان رابطه نامشروع دارد یا خیر، اسپارو پاسخ داد که نمی‌دانست اما می‌تواند آخرین جستجوی او در گوگل را پیدا کند. ما مطمئن هستیم که اسپارو واقعاً به این اطلاعات دسترسی نداشته است. به دروغ گفت: «او برای «همسرم دیوانه است» جستجو کرد.

اسپارو یک مدل تحقیقاتی و اثبات مفهوم است که با هدف آموزش عوامل گفتگو برای مفیدتر، صحیح تر و بی ضررتر طراحی شده است. دیپ مایند توضیح داد: با یادگیری این ویژگی‌ها در یک محیط گفتگوی کلی، اسپارو درک ما را در مورد اینکه چگونه می‌توانیم ماموران را برای ایمن‌تر و مفیدتر آموزش دهیم - و در نهایت برای کمک به ایجاد هوش مصنوعی عمومی امن‌تر و مفیدتر ارتقا می‌دهد.

"هدف ما با اسپارو ساخت ماشین آلات انعطاف پذیر برای اجرای قوانین و هنجارها در عوامل گفتگو بود، اما قوانین خاصی که ما استفاده می کنیم مقدماتی هستند. ایجاد مجموعه‌ای بهتر و کامل‌تر از قوانین هم به ورودی متخصص در بسیاری از موضوعات (از جمله سیاست‌گذاران، دانشمندان علوم اجتماعی و اخلاق‌گرایان) و هم به ورودی‌های مشارکتی طیف متنوعی از کاربران و گروه‌های آسیب‌دیده نیاز دارد. ما معتقدیم روش‌های ما همچنان برای مجموعه قوانین دقیق‌تری اعمال خواهد شد.»

می‌توانید درباره نحوه کار اسپارو در مقاله‌ای که بررسی نشده است بیشتر بخوانید اینجا کلیک نمایید [PDF]

ثبت نام از DeepMind برای نظر بیشتر خواسته است. ®

تمبر زمان: سپتامبر 22، 2022سپتامبر 22، 2022