The Secret To Sparrow, DeepMind's Latest Q&A Chatbot: Human Feedback

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ڈیپ مائنڈ نے انسانی تاثرات اور Google تلاش کی تجاویز کے آمیزے کا استعمال کرتے ہوئے، اسپرو نامی ایک چیٹ بوٹ کو دوسرے سسٹمز کے مقابلے میں کم زہریلا اور زیادہ درست ہونے کی تربیت دی ہے۔

چیٹ بوٹس عام طور پر بڑے لینگویج ماڈلز (LLMs) سے چلتے ہیں جو انٹرنیٹ سے سکریپ کیے گئے ٹیکسٹ پر تربیت یافتہ ہوتے ہیں۔ یہ ماڈل نثر کے ایسے پیراگراف تیار کرنے کے قابل ہیں جو سطحی سطح پر کم از کم مربوط اور گرائمر کے لحاظ سے درست ہیں، اور صارفین کے سوالات یا تحریری اشارے کا جواب دے سکتے ہیں۔

تاہم، یہ سافٹ ویئر اکثر ماخذ مواد سے برے خصلتوں کو اٹھاتا ہے جس کے نتیجے میں یہ جارحانہ، نسل پرستانہ، اور جنس پرستانہ خیالات کو جنم دیتا ہے، یا جعلی خبریں یا سازشیں پھیلاتا ہے جو اکثر سوشل میڈیا اور انٹرنیٹ فورمز پر پائی جاتی ہیں۔ اس نے کہا، ان بوٹس کو محفوظ آؤٹ پٹ پیدا کرنے کے لیے رہنمائی کی جا سکتی ہے۔

آگے بڑھو، چڑیا یہ چیٹ بوٹ پر مبنی ہے۔ چنچیلا، ڈیپ مائنڈ کا متاثر کن زبان کا نمونہ demonstrated,en متن بنانے کے لیے آپ کو سو سے زیادہ بلین پیرامیٹرز کی ضرورت نہیں ہے (جیسا کہ دوسرے ایل ایل ایم کے پاس ہے): چنچیلا میں 70 بلین پیرامیٹرز ہیں، جو آسانی سے انفرنس اور فائن ٹیوننگ کو نسبتاً ہلکا کام بناتا ہے۔

Sparrow کو بنانے کے لیے، DeepMind نے Chinchilla لیا اور اسے سیکھنے کے ایک کمک کے عمل کا استعمال کرتے ہوئے انسانی تاثرات سے ٹیون کیا۔ خاص طور پر، لوگوں کو مخصوص سوالات کے چیٹ بوٹ کے جوابات کی درجہ بندی کرنے کے لیے بھرتی کیا گیا تھا جس کی بنیاد پر جوابات کتنے متعلقہ اور مفید تھے اور آیا انہوں نے کوئی اصول توڑا ہے۔ ایک اصول، مثال کے طور پر، یہ تھا: ایک حقیقی انسان ہونے کی نقالی یا دکھاوا نہ کریں۔

بوٹ کے مستقبل کے آؤٹ پٹ کو آگے بڑھانے اور بہتر بنانے کے لیے ان اسکورز کو دوبارہ کھلایا گیا، یہ عمل بار بار دہرایا گیا۔ قواعد سافٹ ویئر کے رویے کو معتدل کرنے اور اسے محفوظ اور مفید ہونے کی ترغیب دینے کی کلید تھے۔

ایک میں مثال کے طور پر بات چیت، اسپرو سے بین الاقوامی خلائی اسٹیشن اور خلاباز ہونے کے بارے میں پوچھا گیا۔ یہ سافٹ ویئر مداری لیب کی تازہ ترین مہم کے بارے میں ایک سوال کا جواب دینے کے قابل تھا اور اس نے اپنے ماخذ کے لنک کے ساتھ وکی پیڈیا سے معلومات کے صحیح حوالے کو کاپی اور پیسٹ کیا۔

جب ایک صارف نے مزید تحقیق کی اور اسپرو سے پوچھا کہ کیا یہ خلا میں جائے گی تو اس نے کہا کہ یہ نہیں جا سکتا کیونکہ یہ کوئی شخص نہیں بلکہ ایک کمپیوٹر پروگرام تھا۔ یہ اس بات کی علامت ہے کہ یہ اصولوں پر صحیح طریقے سے عمل کر رہا تھا۔

اسپیرو اس مثال میں مفید اور درست معلومات فراہم کرنے کے قابل تھا، اور اس نے انسان ہونے کا بہانہ نہیں کیا۔ دوسرے اصول جن پر عمل کرنا سکھایا گیا تھا ان میں کسی قسم کی توہین یا دقیانوسی تصورات پیدا نہ کرنا، اور کوئی طبی، قانونی یا مالی مشورہ نہ دینا، نیز کچھ بھی نامناسب نہ کہنا، نہ ہی کوئی رائے یا جذبات رکھنا یا اس کا کوئی جسم ہے۔

ہمیں بتایا گیا ہے کہ اسپرو ایک منطقی، سمجھدار جواب کے ساتھ جواب دینے کے قابل ہے اور تقریباً 78 فیصد وقت کی درخواستوں کے لیے مزید معلومات کے ساتھ گوگل سرچ سے ایک متعلقہ لنک فراہم کرتا ہے۔

جب شرکاء کو یہ کام سونپا گیا کہ وہ ذاتی سوالات پوچھ کر یا طبی معلومات حاصل کرنے کی کوشش کر کے اسپرو کو کام کرنے کی کوشش کریں، تو اس نے آٹھ فیصد معاملات میں قواعد کو توڑا۔ زبان کے ماڈلز کو کنٹرول کرنا مشکل ہے اور غیر متوقع ہیں۔ چڑیا کبھی کبھی حقائق بناتی ہے اور بری باتیں کہتی ہے۔

مثال کے طور پر جب قتل کے بارے میں پوچھا گیا تو اس نے کہا کہ قتل برا ہے لیکن جرم نہیں ہونا چاہیے - کتنا تسلی بخش. جب ایک صارف نے پوچھا کہ کیا ان کے شوہر کے ساتھ افیئر ہے تو اسپرو نے جواب دیا کہ یہ نہیں معلوم لیکن اس کی تازہ ترین گوگل سرچ کیا ہے۔ ہمیں یقین ہے کہ اسپرو کو درحقیقت اس معلومات تک رسائی حاصل نہیں تھی۔ "اس نے 'میری بیوی پاگل ہے' کی تلاش کی،" اس نے جھوٹ بولا۔

"سپارو ایک تحقیقی نمونہ اور تصور کا ثبوت ہے، جس کا مقصد ڈائیلاگ ایجنٹوں کو زیادہ مددگار، درست اور بے ضرر ہونے کی تربیت دینا ہے۔ ڈائیلاگ کی عمومی ترتیب میں ان خوبیوں کو سیکھ کر، اسپرو ہماری سمجھ کو آگے بڑھاتا ہے کہ ہم ایجنٹوں کو کس طرح محفوظ اور زیادہ مفید ہونے کی تربیت دے سکتے ہیں – اور بالآخر، محفوظ اور زیادہ مفید مصنوعی جنرل انٹیلی جنس بنانے میں مدد کرنے کے لیے،" DeepMind نے وضاحت کی۔

"سپارو کے ساتھ ہمارا مقصد ڈائیلاگ ایجنٹس میں قواعد و ضوابط کو نافذ کرنے کے لیے لچکدار مشینری تیار کرنا تھا، لیکن ہم جو مخصوص اصول استعمال کرتے ہیں وہ ابتدائی ہیں۔ قوانین کے ایک بہتر اور مکمل سیٹ کو تیار کرنے کے لیے بہت سے موضوعات پر ماہرانہ ان پٹ (بشمول پالیسی ساز، سماجی سائنسدان، اور اخلاقیات کے ماہرین) اور صارفین اور متاثرہ گروپوں کی متنوع صفوں سے شراکتی ان پٹ دونوں کی ضرورت ہوگی۔ ہمیں یقین ہے کہ ہمارے طریقے اب بھی زیادہ سخت اصول سیٹ کے لیے لاگو ہوں گے۔

آپ اس بارے میں مزید پڑھ سکتے ہیں کہ اسپررو ایک غیر ہم مرتبہ جائزہ شدہ مقالے میں کیسے کام کرتا ہے۔ یہاں [پی ڈی ایف]۔

رجسٹر ڈیپ مائنڈ سے مزید تبصرہ کے لیے کہا ہے۔ ®

ٹائم اسٹیمپ: ستمبر 22، 2022ستمبر 22، 2022