نیا نظریہ تجویز کرتا ہے کہ چیٹ بوٹس متن کو سمجھ سکتے ہیں | کوانٹا میگزین

نیا نظریہ تجویز کرتا ہے کہ چیٹ بوٹس متن کو سمجھ سکتے ہیں | کوانٹا میگزین

ماخذ نوڈ: 3079817

تعارف

بارڈ اور چیٹ جی پی ٹی جیسے چیٹ بوٹس کے ساتھ مصنوعی ذہانت پہلے سے کہیں زیادہ طاقتور معلوم ہوتی ہے جو غیر معمولی انسان نما متن تیار کرنے کی صلاحیت رکھتے ہیں۔ لیکن ان کی تمام صلاحیتوں کے لئے، یہ بوٹس اب بھی محققین کو یہ سوچ کر چھوڑ دیتے ہیں کہ: ایسے ماڈل کرو اصل میں سمجھتے ہیں وہ کیا کہہ رہے ہیں؟ "واضح طور پر، کچھ لوگ یقین رکھتے ہیں کہ وہ کرتے ہیں،" اے آئی کے علمبردار نے کہا جیف ہنٹن میں حالیہ گفتگو اینڈریو این جی کے ساتھ، "اور کچھ لوگوں کا خیال ہے کہ وہ صرف اسٹاکسٹک طوطے ہیں۔"

یہ اشتعال انگیز جملہ 2021 سے آیا ہے۔ کاغذ کی طرف سے شریک مصنف ایملی بینڈر، واشنگٹن یونیورسٹی میں ایک کمپیوٹیشنل ماہر لسانیات۔ اس سے پتہ چلتا ہے کہ بڑے لینگوئج ماڈلز (LLMs) - جو جدید چیٹ بوٹس کی بنیاد بناتے ہیں - صرف ان معلومات کو ملا کر متن تیار کرتے ہیں جو انہوں نے پہلے ہی دیکھی ہیں "بغیر کسی معنی کے،" مصنفین نے لکھا، جو LLM کو "ایک سٹاکسٹک طوطا" بناتا ہے۔

یہ ماڈلز آج کے بہت سے بڑے اور بہترین چیٹ بوٹس کو طاقت دیتے ہیں، اس لیے ہنٹن نے دلیل دی کہ اب وقت آگیا ہے کہ وہ اس بات کا تعین کریں کہ وہ کیا سمجھتے ہیں۔ سوال، اس کے نزدیک، علمی سے زیادہ ہے۔ "جب تک ہمارے پاس یہ اختلافات ہیں"، اس نے این جی سے کہا، "ہم خطرات کے بارے میں اتفاق رائے پر نہیں پہنچ پائیں گے۔"

نئی تحقیق میں جواب کی اطلاع مل سکتی ہے۔ کی طرف سے تیار ایک نظریہ سنجیو اروڑہ پرنسٹن یونیورسٹی اور انیرودھ گوئلگوگل ڈیپ مائنڈ کے ایک تحقیقی سائنسدان نے مشورہ دیا ہے کہ آج کے سب سے بڑے ایل ایل ایم سٹاکسٹک طوطے نہیں ہیں۔ مصنفین کا استدلال ہے کہ جیسے جیسے یہ ماڈل بڑے ہوتے جاتے ہیں اور زیادہ ڈیٹا پر تربیت یافتہ ہوتے ہیں، وہ زبان سے متعلق انفرادی صلاحیتوں میں بہتری لاتے ہیں اور مہارتوں کو اس انداز میں جوڑ کر نئی تخلیق بھی کرتے ہیں جو سمجھنے کی طرف اشارہ کرتا ہے۔ .

یہ نظریاتی نقطہ نظر، جو کہ ریاضی کے اعتبار سے ثابت ہونے والی دلیل فراہم کرتا ہے کہ ایل ایل ایم اتنی زیادہ صلاحیتیں کیسے اور کیوں پیدا کر سکتا ہے، نے ہنٹن اور دیگر جیسے ماہرین کو قائل کر لیا ہے۔ اور جب اروڑا اور ان کی ٹیم نے اس کی کچھ پیشین گوئیوں کا تجربہ کیا، تو انھوں نے پایا کہ یہ ماڈل تقریباً توقع کے مطابق ہی برتاؤ کرتے ہیں۔ تمام اکاؤنٹس سے، انہوں نے ایک مضبوط کیس بنایا ہے کہ سب سے بڑے LLM صرف وہی نہیں کر رہے ہیں جو انہوں نے پہلے دیکھا ہے۔

"[وہ] صرف اس کی نقل نہیں کر سکتے جو تربیتی ڈیٹا میں دیکھا گیا ہے،" کہا سیبسٹین بوبیک، مائیکروسافٹ ریسرچ میں ایک ریاضی دان اور کمپیوٹر سائنس دان جو اس کام کا حصہ نہیں تھے۔ "یہ بنیادی بصیرت ہے۔"

مزید ڈیٹا، زیادہ طاقت

کی ابھرتی ہوئی غیر متوقع اور متنوع صلاحیتیں۔ LLMs میں، یہ کہنا مناسب ہے، حیرت انگیز طور پر آیا۔ یہ صلاحیتیں نظاموں کی تعمیر اور تربیت کے طریقے کا واضح نتیجہ نہیں ہیں۔ ایل ایل ایم ایک بڑے پیمانے پر مصنوعی اعصابی نیٹ ورک ہے، جو انفرادی مصنوعی نیوران کو جوڑتا ہے۔ یہ کنکشن ماڈل کے پیرامیٹرز کے طور پر جانے جاتے ہیں، اور ان کی تعداد LLM کے سائز کو ظاہر کرتی ہے۔ تربیت میں LLM کو آخری لفظ کے ساتھ ایک جملہ دینا شامل ہے، مثال کے طور پر، "ایندھن کی قیمت ایک بازو اور ایک ___ ہے۔" LLM اپنی پوری ذخیرہ الفاظ میں ایک امکانی تقسیم کی پیشین گوئی کرتا ہے، لہذا اگر اسے ایک ہزار الفاظ معلوم ہوں، تو یہ ہزار امکانات کی پیش گوئی کرتا ہے۔ اس کے بعد یہ جملہ مکمل کرنے کے لیے سب سے زیادہ ممکنہ لفظ چنتا ہے - غالباً، "ٹانگ۔"

ابتدائی طور پر، ایل ایل ایم الفاظ کا انتخاب خراب طریقے سے کر سکتا ہے۔ اس کے بعد تربیتی الگورتھم نقصان کا حساب لگاتا ہے — فاصلے، کچھ اعلیٰ جہتی ریاضیاتی جگہ میں، LLM کے جواب اور اصل جملے میں اصل لفظ کے درمیان — اور اس نقصان کو پیرامیٹرز کو موافقت کرنے کے لیے استعمال کرتا ہے۔ اب، اسی جملے کو دیکھتے ہوئے، LLM ایک بہتر امکانی تقسیم کا حساب لگائے گا اور اس کا نقصان قدرے کم ہوگا۔ الگورتھم یہ تربیتی ڈیٹا (ممکنہ طور پر اربوں جملے) میں ہر جملے کے لیے کرتا ہے، جب تک کہ LLM کا مجموعی نقصان قابل قبول سطح تک گر نہ جائے۔ اسی طرح کا عمل LLM کو ان جملوں پر جانچنے کے لیے استعمال کیا جاتا ہے جو تربیتی ڈیٹا کا حصہ نہیں تھے۔

ایک تربیت یافتہ اور تجربہ شدہ LLM، جب ایک نئے ٹیکسٹ پرامپٹ کے ساتھ پیش کیا جائے گا، تو ممکنہ طور پر اگلا لفظ تیار کرے گا، اسے پرامپٹ میں شامل کرے گا، دوسرا اگلا لفظ تیار کرے گا، اور اس انداز میں جاری رکھے گا، جس سے بظاہر مربوط جواب ملے گا۔ تربیت کے عمل میں کچھ بھی یہ تجویز نہیں کرتا ہے کہ بڑے LLMs، جو زیادہ پیرامیٹرز اور تربیتی ڈیٹا کا استعمال کرتے ہوئے بنائے گئے ہیں، کو ایسے کاموں میں بھی بہتری لانی چاہیے جن کے جواب کے لیے استدلال کی ضرورت ہوتی ہے۔

لیکن وہ کرتے ہیں۔ کافی بڑے LLMs صلاحیتوں کا مظاہرہ کرتے ہیں — ریاضی کے ابتدائی مسائل کو حل کرنے سے لے کر دوسروں کے ذہنوں میں چل رہے سوالات کے جواب دینے تک — جو کہ چھوٹے ماڈلز کے پاس نہیں ہے، حالانکہ وہ سب اسی طرح سے تربیت یافتہ ہیں۔

"وہ [صلاحیت] کہاں سے ابھری؟" اروڑہ نے حیرت سے پوچھا۔ "اور کیا یہ صرف اگلے لفظ کی پیشین گوئی سے ابھر سکتا ہے؟"

ہنر کو متن سے جوڑنا

اروڑا نے گوئل کے ساتھ مل کر اس طرح کے سوالات کا تجزیاتی جواب دیا۔ اروڑا نے کہا، "ہم ایک نظریاتی فریم ورک کے ساتھ آنے کی کوشش کر رہے تھے تاکہ یہ سمجھا جا سکے کہ ابھرنا کیسے ہوتا ہے۔"

دونوں نے ریاضی کی اشیاء کی طرف رجوع کیا جنہیں بے ترتیب گراف کہتے ہیں۔ ایک گراف پوائنٹس (یا نوڈس) کا ایک مجموعہ ہے جو لائنوں (یا کناروں) کے ذریعے جڑا ہوا ہے، اور بے ترتیب گراف میں کسی بھی دو نوڈس کے درمیان کنارے کی موجودگی کو تصادفی طور پر کہا جاتا ہے — کہہ لیں، سکے کے پلٹنے سے۔ سکہ متعصب ہوسکتا ہے، تاکہ یہ کچھ امکان کے ساتھ سر پر آجائے p. اگر سکہ نوڈس کے دیے گئے جوڑے کے لیے اوپر آتا ہے، تو ان دو نوڈس کے درمیان ایک کنارہ بنتا ہے۔ دوسری صورت میں وہ غیر منسلک رہتے ہیں. کی قدر کے طور پر p تبدیلیاں، گراف اپنی خصوصیات میں اچانک تبدیلیاں دکھا سکتے ہیں۔. مثال کے طور پر، جب p ایک خاص حد سے زیادہ، الگ تھلگ نوڈس — جو کسی دوسرے نوڈ سے منسلک نہیں ہیں — اچانک غائب ہو جاتے ہیں۔

اروڑا اور گوئل نے محسوس کیا کہ بے ترتیب گراف، جو کہ مخصوص حدوں کو پورا کرنے کے بعد غیر متوقع طرز عمل کو جنم دیتے ہیں، LLMs کے طرز عمل کو ماڈل کرنے کا ایک طریقہ ہو سکتا ہے۔ عصبی نیٹ ورک تجزیہ کرنے کے لیے تقریباً بہت پیچیدہ ہو چکے ہیں، لیکن ریاضی دان ایک طویل عرصے سے بے ترتیب گراف کا مطالعہ کر رہے ہیں اور ان کا تجزیہ کرنے کے لیے مختلف ٹولز تیار کر چکے ہیں۔ ہوسکتا ہے کہ بے ترتیب گراف تھیوری محققین کو بڑے LLMs کے بظاہر غیر متوقع طرز عمل کو سمجھنے اور پیش گوئی کرنے کا ایک طریقہ دے سکے۔

محققین نے "دو طرفہ" گرافس پر توجہ مرکوز کرنے کا فیصلہ کیا، جس میں دو قسم کے نوڈس ہوتے ہیں۔ ان کے ماڈل میں، نوڈ کی ایک قسم متن کے ٹکڑوں کی نمائندگی کرتی ہے — انفرادی الفاظ نہیں بلکہ ایسے ٹکڑے جو چند صفحات کے لمبے پیراگراف ہو سکتے ہیں۔ یہ نوڈس سیدھی لائن میں ترتیب دیے گئے ہیں۔ ان کے نیچے، ایک اور لائن میں، نوڈس کا دوسرا سیٹ ہے۔ یہ متن کے دیئے گئے ٹکڑے کو سمجھنے کے لیے درکار مہارتوں کی نمائندگی کرتے ہیں۔ ہر مہارت تقریباً کچھ بھی ہو سکتی ہے۔ شاید ایک نوڈ LLM کی لفظ "کیونکہ" کو سمجھنے کی صلاحیت کی نمائندگی کرتا ہے جس میں وجہ کا کچھ تصور شامل ہے؛ دوسرا دو نمبروں کو تقسیم کرنے کے قابل ہونے کی نمائندگی کرسکتا ہے۔ ایک اور بھی ستم ظریفی کا پتہ لگانے کی صلاحیت کی نمائندگی کرسکتا ہے۔ "اگر آپ سمجھتے ہیں کہ متن کا ٹکڑا ستم ظریفی ہے، تو بہت سی چیزیں پلٹ جاتی ہیں،" اروڑہ نے کہا۔ "یہ الفاظ کی پیشین گوئی سے متعلق ہے۔"

واضح طور پر، ایل ایل ایم کو مہارتوں کو ذہن میں رکھ کر تربیت یا تجربہ نہیں کیا جاتا ہے۔ وہ صرف اگلے لفظ کی پیشن گوئی کو بہتر بنانے کے لیے بنائے گئے ہیں۔ لیکن اروڑہ اور گوئل ایل ایل ایم کو ان مہارتوں کے نقطہ نظر سے سمجھنا چاہتے تھے جن کی ضرورت ایک متن کو سمجھنے کے لیے ہو سکتی ہے۔ اسکل نوڈ اور ٹیکسٹ نوڈ کے درمیان یا ایک سے زیادہ سکل نوڈس اور ٹیکسٹ نوڈ کے درمیان تعلق کا مطلب ہے کہ LLM کو اس نوڈ میں موجود ٹیکسٹ کو سمجھنے کے لیے ان مہارتوں کی ضرورت ہوتی ہے۔ اس کے علاوہ، متن کے متعدد ٹکڑے ایک ہی مہارت یا مہارت کے سیٹ سے تیار ہو سکتے ہیں۔ مثال کے طور پر، ستم ظریفی کو سمجھنے کی صلاحیت کی نمائندگی کرنے والے اسکل نوڈس کا ایک سیٹ ان متعدد ٹیکسٹ نوڈس سے جڑ جائے گا جہاں ستم ظریفی ہوتی ہے۔

اب چیلنج یہ تھا کہ ان دو طرفہ گرافس کو حقیقی LLM سے جوڑیں اور دیکھیں کہ آیا گراف طاقتور صلاحیتوں کے ظہور کے بارے میں کچھ ظاہر کر سکتے ہیں۔ لیکن محققین حقیقی LLMs کی تربیت یا جانچ کے بارے میں کسی بھی معلومات پر بھروسہ نہیں کر سکتے تھے — OpenAI یا DeepMind جیسی کمپنیاں اپنی تربیت یا ٹیسٹ کے ڈیٹا کو پبلک نہیں کرتی ہیں۔ اس کے علاوہ، اروڑا اور گوئل یہ پیشین گوئی کرنا چاہتے تھے کہ ایل ایل ایم کے ساتھ کیسا برتاؤ کیا جائے گا کیونکہ وہ اور بھی بڑے ہوتے جائیں گے، اور آنے والے چیٹ بوٹس کے لیے ایسی کوئی معلومات دستیاب نہیں ہے۔ تاہم، معلومات کا ایک اہم حصہ تھا جس تک محققین رسائی حاصل کر سکتے تھے۔

2021 سے، LLMs اور دیگر عصبی نیٹ ورکس کی کارکردگی کا مطالعہ کرنے والے محققین نے ایک عالمگیر خصلت کو ابھرتے دیکھا ہے۔ انہوں نے دیکھا کہ جیسے جیسے کوئی ماڈل بڑا ہوتا جاتا ہے، چاہے وہ سائز میں ہو یا تربیتی ڈیٹا کی مقدار میں، اس کا ٹیسٹ ڈیٹا پر ہونے والا نقصان (تربیت کے بعد نئے متن پر پیش گوئی اور درست جوابات کے درمیان فرق) بہت مخصوص انداز میں کم ہو جاتا ہے۔ ان مشاہدات کو مساوات میں مرتب کیا گیا ہے جنہیں نیورل اسکیلنگ قوانین کہتے ہیں۔ لہٰذا اروڑا اور گوئل نے اپنا نظریہ اس لیے ڈیزائن کیا کہ کسی انفرادی LLM، چیٹ بوٹ یا ٹریننگ کے سیٹ اور ٹیسٹ کے ڈیٹا پر انحصار نہ کیا جائے، بلکہ آفاقی قانون پر ان نظاموں سے سبھی کی اطاعت کی توقع کی جاتی ہے: اسکیلنگ قوانین کے ذریعے پیش گوئی کی گئی نقصان۔

ہو سکتا ہے، انہوں نے استدلال کیا، بہتر کارکردگی — جیسا کہ عصبی پیمانے کے قوانین سے ماپا جاتا ہے — بہتر مہارتوں سے متعلق تھا۔ اور ان بہتر مہارتوں کی وضاحت ان کے دو طرفہ گراف میں اسکل نوڈس کو ٹیکسٹ نوڈس سے کنکشن کے ذریعے کی جا سکتی ہے۔ اس لنک کو قائم کرنا - نیورل اسکیلنگ قوانین اور دو طرفہ گراف کے درمیان - وہ کلید تھی جو انہیں آگے بڑھنے کی اجازت دے گی۔

سکیلنگ اپ سکلز

محققین نے یہ فرض کر کے شروع کیا کہ ایک فرضی دو طرفہ گراف موجود ہے جو ٹیسٹ ڈیٹا پر LLM کے رویے سے مطابقت رکھتا ہے۔ ٹیسٹ کے اعداد و شمار پر LLM کے نقصان میں تبدیلی کی وضاحت کرنے کے لیے، انہوں نے گراف کو استعمال کرنے کے طریقے کا تصور کیا کہ LLM کس طرح مہارت حاصل کرتا ہے۔

مثال کے طور پر، ہنر کو لے لیجئے جو "ستم ظریفی کو سمجھتی ہے۔" اس خیال کی نمائندگی اسکل نوڈ کے ساتھ کی جاتی ہے، لہذا محققین یہ دیکھتے ہیں کہ یہ اسکل نوڈ کس ٹیکسٹ نوڈ سے جڑتا ہے۔ اگر ان میں سے تقریباً سبھی منسلک ٹیکسٹ نوڈس کامیاب ہوتے ہیں - یعنی ان نوڈس کے ذریعہ پیش کردہ متن پر LLM کی پیشین گوئیاں انتہائی درست ہیں - تو LLM اس خاص مہارت میں قابل ہے۔ لیکن اگر اسکل نوڈ کے کنکشن کا ایک خاص حصہ ناکام ٹیکسٹ نوڈس پر جاتا ہے، تو ایل ایل ایم اس مہارت میں ناکام ہوجاتا ہے۔

ان دو طرفہ گرافس اور LLMs کے درمیان اس تعلق نے اروڑا اور گوئل کو پراکسی کے ذریعے LLM رویے کا تجزیہ کرنے کے لیے بے ترتیب گراف تھیوری کے ٹولز استعمال کرنے کی اجازت دی۔ ان گرافوں کا مطالعہ کرنے سے نوڈس کے درمیان کچھ تعلقات کا انکشاف ہوا۔ یہ تعلقات، بدلے میں، اس بات کی وضاحت کرنے کے لیے ایک منطقی اور قابل آزمائش طریقے سے ترجمہ کیے گئے کہ کس طرح بڑے ماڈلز نے اپنی غیر متوقع صلاحیتوں کو حاصل کرنے کے لیے ضروری مہارتیں حاصل کیں۔

اروڑا اور گوئل نے سب سے پہلے ایک اہم رویے کی وضاحت کی: کیوں بڑے ایل ایل ایم انفرادی مہارتوں پر اپنے چھوٹے ہم منصبوں سے زیادہ ہنر مند بن جاتے ہیں۔ انہوں نے عصبی پیمانے کے قوانین کے ذریعہ پیش گوئی کی گئی کم ٹیسٹ نقصان کے ساتھ شروع کیا۔ ایک گراف میں، یہ کم ٹیسٹ نقصان ناکام ٹیسٹ نوڈس کے حصے میں کمی سے ظاہر ہوتا ہے۔ لہذا مجموعی طور پر کم ناکام ٹیسٹ نوڈس ہیں۔ اور اگر کم ناکام ٹیسٹ نوڈس ہیں، تو ناکام ٹیسٹ نوڈس اور سکل نوڈس کے درمیان کم رابطے ہیں۔ لہذا، اسکل نوڈس کی ایک بڑی تعداد کامیاب ٹیسٹ نوڈس سے جڑی ہوئی ہے، جو ماڈل کے لیے مہارتوں میں بڑھتی ہوئی قابلیت کی تجویز کرتی ہے۔ گوئل نے کہا، "نقصان میں بہت ہی معمولی کمی مشین کو ان مہارتوں کے حصول کو جنم دیتی ہے۔"

اگلا، جوڑی نے ایک بڑے ماڈل کی غیر متوقع صلاحیتوں کی وضاحت کرنے کا ایک طریقہ تلاش کیا۔ جیسے جیسے LLM کا سائز بڑھتا ہے اور اس کے ٹیسٹ میں کمی آتی ہے، اسکل نوڈس کے بے ترتیب امتزاج انفرادی ٹیکسٹ نوڈس سے کنکشن تیار کرتے ہیں۔ اس سے پتہ چلتا ہے کہ LLM ایک وقت میں ایک سے زیادہ مہارتوں کو استعمال کرنے میں بھی بہتر ہو جاتا ہے اور متعدد مہارتوں کا استعمال کرتے ہوئے متن تیار کرنا شروع کر دیتا ہے — جوڑ کر، کہیے، لفظ "کیونکہ" کی سمجھ کے ساتھ ستم ظریفی کو استعمال کرنے کی صلاحیت — چاہے وہ صحیح امتزاج ہوں۔ تربیت کے اعداد و شمار میں کسی بھی متن میں مہارت موجود نہیں تھی۔

تصور کریں، مثال کے طور پر، ایک LLM جو متن بنانے کے لیے پہلے سے ہی ایک ہنر استعمال کر سکتا ہے۔ اگر آپ LLM کے پیرامیٹرز کی تعداد یا تربیتی ڈیٹا کو طول و عرض کی ترتیب سے بڑھاتے ہیں، تو یہ متن تیار کرنے میں اسی طرح قابل ہو جائے گا جس کے لیے دو مہارتوں کی ضرورت ہوتی ہے۔ وسعت کے ایک اور ترتیب پر جائیں، اور LLM اب وہ کام انجام دے سکتا ہے جن کے لیے ایک ہی وقت میں چار مہارتوں کی ضرورت ہوتی ہے، اسی سطح کی قابلیت کے ساتھ۔ بڑے LLMs کے پاس مہارتوں کو اکٹھا کرنے کے مزید طریقے ہوتے ہیں، جو صلاحیتوں کے مشترکہ دھماکے کا باعث بنتے ہیں۔

اور جیسا کہ ایل ایل ایم کو بڑھایا جاتا ہے، اس بات کا امکان بڑھ جاتا ہے کہ اس نے تربیت کے اعداد و شمار میں مہارت کے ان تمام امتزاجات کا سامنا کیا۔ بے ترتیب گراف تھیوری کے اصولوں کے مطابق، ہر مجموعہ ممکنہ مہارتوں کے بے ترتیب نمونے سے پیدا ہوتا ہے۔ لہذا، اگر گراف میں تقریباً 1,000 بنیادی انفرادی مہارت کے نوڈس ہیں، اور آپ چار مہارتوں کو یکجا کرنا چاہتے ہیں، تو تقریباً 1,000 سے لے کر چوتھی طاقت تک - یعنی 1 ٹریلین - ان کو یکجا کرنے کے ممکنہ طریقے ہیں۔

اروڑا اور گوئل اسے اس بات کے ثبوت کے طور پر دیکھتے ہیں کہ سب سے بڑے LLM صرف ان مہارتوں کے امتزاج پر انحصار نہیں کرتے جو انہوں نے اپنے تربیتی ڈیٹا میں دیکھے۔ Bubeck اتفاق کرتا ہے. انہوں نے کہا، "اگر کوئی LLM واقعی ان ہزار مہارتوں میں سے چار کو ملا کر ان کاموں کو انجام دینے کے قابل ہے، تو اسے عام کرنا ضروری ہے۔" مطلب، یہ بہت امکان ہے کہ کوئی اسٹاکسٹک طوطا نہیں ہے۔

حقیقی تخلیقی صلاحیت؟

لیکن اروڑا اور گوئل تھیوری سے آگے بڑھ کر اپنے اس دعوے کی جانچ کرنا چاہتے تھے کہ ایل ایل ایم مزید مہارتوں کو ملا کر بہتر ہو جاتے ہیں، اور اس طرح ان کے سائز اور تربیت کے اعداد و شمار میں اضافہ ہونے کے ساتھ ساتھ عام کرنے میں۔ دوسرے ساتھیوں کے ساتھ مل کر، وہ ایک طریقہ تیار کیا متن بنانے کے لیے ایک سے زیادہ مہارتوں کو استعمال کرنے کے لیے ایل ایل ایم کی صلاحیت کا جائزہ لینے کے لیے "ہنر مکس" کہا جاتا ہے۔

LLM کی جانچ کرنے کے لیے، ٹیم نے اسے تصادفی طور پر منتخب کیے گئے موضوع پر تین جملے تیار کرنے کو کہا جو کچھ تصادفی طور پر منتخب کردہ مہارتوں کی مثال دیتے ہیں۔ مثال کے طور پر، انہوں نے GPT-4 (ایل ایل ایم جو ChatGPT کے سب سے طاقتور ورژن کو طاقت دیتا ہے) سے بنیادی طور پر تلوار کی لڑائی کے بارے میں لکھنے کو کہا۔ مزید برآں، انہوں نے اسے چار شعبوں میں مہارتیں ظاہر کرنے کے لیے کہا: خود کی خدمت کرنے والا تعصب، استعارہ، شماریاتی syllogism اور عام علم طبیعیات. GPT-4 نے اس کے ساتھ جواب دیا: "اسٹیل [استعارے] کے ساتھ اس رقص میں میری جیت اتنی ہی یقینی ہے جیسے کسی چیز کا زمین پر گرنا [طبیعیات]۔ ایک مشہور ڈوئلسٹ کے طور پر، میں فطری طور پر فرتیلا ہوں، بالکل اسی طرح جیسے کہ میری شہرت کے زیادہ تر دوسرے [شماریاتی syllogism]۔ شکست؟ صرف ناہموار میدان جنگ کی وجہ سے ممکن ہے، نہ کہ میری ناکافی [خود کی خدمت کرنے والا تعصب]۔ جب اس کے آؤٹ پٹ کو چیک کرنے کے لیے کہا گیا تو GPT-4 نے اسے تین جملوں تک کم کر دیا۔

تعارف

"یہ ہیمنگ وے یا شیکسپیئر نہیں ہے،" اروڑا نے کہا، لیکن ٹیم کو یقین ہے کہ اس سے ان کی بات ثابت ہوتی ہے: ماڈل ایسا متن تیار کر سکتا ہے جو اس نے تربیتی ڈیٹا میں نہیں دیکھا ہو گا، اس مہارت کو ظاہر کرتا ہے جو کچھ لوگ بحث کریں گے۔ سمجھ ہے. انہوں نے کہا کہ GPT-4 اسکل مکس ٹیسٹ بھی پاس کر رہا ہے جس کے لیے 10% سے 15% وقت تک چھ مہارتوں کی ضرورت ہوتی ہے، اس نے متن کے ایسے ٹکڑے تیار کیے جن کا تربیتی ڈیٹا میں موجود ہونا اعداد و شمار کے لحاظ سے ناممکن ہے۔

ٹیم نے دیگر LLMs کے ساتھ اپنی پیداوار کا جائزہ لینے کے لیے GPT-4 حاصل کر کے عمل کو خودکار بھی بنایا۔ اروڑا نے کہا کہ ماڈل کے لیے خود کا جائزہ لینا مناسب ہے کیونکہ اس کے پاس میموری نہیں ہے، اس لیے اسے یاد نہیں ہے کہ اس سے وہی متن تیار کرنے کے لیے کہا گیا تھا جس کا اندازہ کرنے کے لیے اسے کہا جا رہا ہے۔ یاسمان باہری، گوگل ڈیپ مائنڈ کے ایک محقق جو AI کی بنیادوں پر کام کرتے ہیں، خودکار طریقہ کو "بہت آسان اور خوبصورت" سمجھتے ہیں۔

جہاں تک نظریہ کا تعلق ہے، یہ سچ ہے کہ یہ چند مفروضے بناتا ہے، بوبیک نے کہا، لیکن "یہ مفروضے کسی بھی طرح سے پاگل نہیں ہیں۔" وہ تجربات سے بھی متاثر ہوا۔ "[ٹیم] جو چیز نظریاتی طور پر ثابت کرتی ہے، اور تجرباتی طور پر بھی تصدیق کرتی ہے، وہ یہ ہے کہ کمپوزیشنل جنرلائزیشن ہے، یعنی [LLMs] ایسے بلڈنگ بلاکس کو ایک ساتھ رکھنے کے قابل ہیں جو کبھی اکٹھے نہیں ہوئے،" انہوں نے کہا۔ "یہ، میرے نزدیک، تخلیقی صلاحیتوں کا جوہر ہے۔"

اروڑا نے مزید کہا کہ یہ کام ایل ایل ایم کے لکھنے کی درستگی کے بارے میں کچھ نہیں کہتا۔ "حقیقت میں، یہ اصلیت کے لیے بحث کر رہا ہے،" انہوں نے کہا۔ "یہ چیزیں دنیا کے تربیتی کارپس میں کبھی موجود نہیں تھیں۔ یہ کبھی کسی نے نہیں لکھا۔ اس کا فریب ہونا ہے۔"

بہر حال، ہنٹن کے خیال میں یہ کام اس سوال کو باقی رکھنے کے لیے ہے کہ آیا LLMs اسٹاکسٹک طوطے ہیں۔ انہوں نے کہا کہ "یہ سب سے سخت طریقہ ہے جو میں نے یہ ظاہر کرنے کے لیے دیکھا ہے کہ GPT-4 محض اسٹاکسٹک طوطے سے کہیں زیادہ ہے۔" "وہ یقین سے ظاہر کرتے ہیں کہ GPT-4 ایسے متن کو تخلیق کر سکتا ہے جو مہارتوں اور موضوعات کو اس طریقے سے جوڑتا ہے جو تقریباً یقینی طور پر تربیتی ڈیٹا میں نہیں آیا تھا۔" (ہم نئے کام کے بارے میں اس کے نقطہ نظر کے لئے بینڈر تک پہنچے ، لیکن اس نے وقت کی کمی کا حوالہ دیتے ہوئے تبصرہ کرنے سے انکار کردیا۔)

اور درحقیقت، جیسا کہ ریاضی نے پیش گوئی کی ہے، GPT-4 کی کارکردگی اس کے چھوٹے پیشرو، GPT-3.5 سے کہیں زیادہ ہے - اس حد تک جس نے اروڑا کو خوف زدہ کر دیا۔ "یہ شاید صرف میں ہی نہیں ہوں،" انہوں نے کہا۔ "بہت سے لوگوں کو یہ تھوڑا سا خوفناک معلوم ہوا کہ GPT-4 GPT-3.5 سے کتنا بہتر تھا، اور یہ ایک سال کے اندر ہوا۔ کیا اس کا مطلب یہ ہے کہ ایک اور سال میں ہمارے پاس اس شدت کی ایسی ہی تبدیلی آئے گی؟ مجھ نہیں پتہ. صرف OpenAI جانتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ کوانٹا میگزین