نظریه جدید نشان می دهد که چت بات ها می توانند متن را درک کنند | مجله کوانتا

نظریه جدید نشان می دهد که چت بات ها می توانند متن را درک کنند | مجله کوانتا

گره منبع: 3079817

معرفی

هوش مصنوعی قدرتمندتر از همیشه به نظر می رسد، زیرا چت ربات هایی مانند Bard و ChatGPT قادر به تولید متن های غیرعادی شبیه انسان هستند. اما با وجود تمام استعدادهایشان، این ربات‌ها هنوز هم محققان را در این فکر فرو می‌برند: چنین مدل‌هایی را انجام دهید در واقع درک کنید آنها چه می گویند؟ این پیشگام هوش مصنوعی گفت: واضح است که برخی از مردم باور دارند که این کار را می کنند جف هینتون در مکالمه اخیر با اندرو نگ، "و برخی از مردم معتقدند که آنها فقط طوطی های تصادفی هستند."

این عبارت خاطره انگیز از سال 2021 می آید مقاله نویسنده مشترک امیلی بندر، زبان شناس محاسباتی در دانشگاه واشنگتن. نویسندگان نوشتند که مدل‌های زبان بزرگ (LLM) – که اساس چت‌بات‌های مدرن را تشکیل می‌دهند – تنها با ترکیب اطلاعاتی که قبلاً دیده‌اند «بدون هیچ ارجاعی به معنا» متن تولید می‌کنند، که LLM را به «طوطی تصادفی» تبدیل می‌کند.

این مدل‌ها قدرت بسیاری از بزرگ‌ترین و بهترین چت‌بات‌های امروزی را دارند، بنابراین هینتون استدلال کرد که زمان آن رسیده است که میزان درک آن‌ها را مشخص کنیم. این سوال برای او بیش از آکادمیک است. او به نگ گفت: «تا زمانی که ما آن اختلاف نظرها را داریم»، «نمی‌توانیم درباره خطرات به یک اجماع برسیم».

تحقیقات جدید ممکن است پاسخی داشته باشد. نظریه ای که توسط سانجیف آرورا از دانشگاه پرینستون و انیرود گویالیک دانشمند محقق در Google DeepMind، پیشنهاد می کند که بزرگترین LLM های امروزی طوطی های تصادفی نیستند. نویسندگان استدلال می‌کنند که با بزرگ‌تر شدن این مدل‌ها و آموزش بر روی داده‌های بیشتر، توانایی‌های فردی مرتبط با زبان را بهبود می‌بخشند و همچنین با ترکیب مهارت‌ها به شیوه‌ای که به درک اشاره دارد، توانایی‌های جدیدی را توسعه می‌دهند - ترکیب‌هایی که بعید به نظر می‌رسد در داده‌های آموزشی وجود داشته باشند. .

این رویکرد نظری، که یک استدلال ریاضی قابل اثبات برای اینکه چگونه و چرا یک LLM می‌تواند توانایی‌های بسیاری را توسعه دهد، ارائه می‌کند، کارشناسانی مانند هینتون و دیگران را متقاعد کرده است. و زمانی که آرورا و تیمش برخی از پیش‌بینی‌های آن را آزمایش کردند، متوجه شدند که این مدل‌ها دقیقاً مطابق انتظار عمل می‌کنند. از همه حساب‌ها، آن‌ها این ادعا را قوی کرده‌اند که بزرگ‌ترین LLM‌ها فقط آنچه را که قبلا دیده‌اند طوطی‌سازی نمی‌کنند.

گفت: «[آنها] نمی توانند فقط آنچه را که در داده های آموزشی دیده می شود تقلید کنند سباستین بابک، یک ریاضیدان و دانشمند کامپیوتر در Microsoft Research که بخشی از کار نبود. "این بینش اساسی است."

داده بیشتر، قدرت بیشتر

ظهور توانایی های غیر منتظره و متنوع در LLM، منصفانه است که بگوییم، غافلگیرکننده بود. این توانایی ها نتیجه آشکاری از نحوه ساخت و آموزش سیستم ها نیستند. LLM یک شبکه عصبی مصنوعی عظیم است که سلول های عصبی مصنوعی را به هم متصل می کند. این اتصالات به عنوان پارامترهای مدل شناخته می شوند و تعداد آنها اندازه LLM را نشان می دهد. آموزش شامل دادن جمله ای به LLM می شود که آخرین کلمه آن مبهم باشد، به عنوان مثال، "سوخت هزینه یک بازو و یک ___ است." LLM توزیع احتمال را در کل دایره لغات خود پیش بینی می کند، بنابراین اگر مثلاً هزار کلمه بداند، هزار احتمال را پیش بینی می کند. سپس محتمل ترین کلمه را برای تکمیل جمله انتخاب می کند - احتمالاً "پا".

در ابتدا، LLM ممکن است کلمات را ضعیف انتخاب کند. سپس الگوریتم آموزشی یک تلفات را محاسبه می‌کند - فاصله، در فضای ریاضی با ابعاد بالا، بین پاسخ LLM و کلمه واقعی در جمله اصلی - و از این تلفات برای تغییر پارامترها استفاده می‌کند. اکنون با توجه به همین جمله، LLM توزیع احتمال بهتری را محاسبه می کند و ضرر آن کمی کمتر خواهد بود. الگوریتم این کار را برای هر جمله در داده های آموزشی انجام می دهد (احتمالاً میلیاردها جمله)، تا زمانی که ضرر کلی LLM به سطوح قابل قبول کاهش یابد. فرآیند مشابهی برای آزمایش LLM بر روی جملاتی که بخشی از داده‌های آموزشی نیستند، استفاده می‌شود.

یک LLM آموزش دیده و آزمایش شده، هنگامی که با یک پیام متنی جدید ارائه می شود، محتمل ترین کلمه بعدی را تولید می کند، آن را به دستور الحاق می کند، کلمه بعدی دیگری را تولید می کند، و به همین ترتیب ادامه می دهد و یک پاسخ به ظاهر منسجم ایجاد می کند. هیچ چیز در فرآیند آموزش نشان نمی دهد که LLM های بزرگتر که با استفاده از پارامترها و داده های آموزشی بیشتر ساخته شده اند، باید در کارهایی که برای پاسخگویی نیاز به استدلال دارند نیز بهبود یابند.

اما آنها انجام می دهند. LLM های به اندازه کافی بزرگ توانایی هایی را نشان می دهند - از حل مسائل ریاضی ابتدایی تا پاسخ دادن به سؤالاتی در مورد اتفاقات در ذهن دیگران - که مدل های کوچکتر از آن برخوردار نیستند، حتی اگر همه آنها به روش های مشابه آموزش دیده باشند.

"این [توانایی] از کجا پدیدار شد؟" آرورا تعجب کرد. "و آیا این فقط از پیش‌بینی کلمه بعدی می‌تواند پدیدار شود؟"

اتصال مهارت به متن

آرورا با گویال همکاری کرد تا به چنین سوالاتی به صورت تحلیلی پاسخ دهد. آرورا گفت: «ما در تلاش بودیم تا یک چارچوب نظری برای درک چگونگی وقوع پیدا کنیم.

این دو به اشیاء ریاضی به نام نمودارهای تصادفی روی آوردند. گراف مجموعه‌ای از نقاط (یا گره‌ها) است که با خطوط (یا لبه‌ها) به هم متصل شده‌اند، و در یک نمودار تصادفی، وجود یک یال بین هر دو گره به‌طور تصادفی دیکته می‌شود - مثلاً با یک چرخش سکه. سکه می تواند مغرضانه باشد، به طوری که با کمی احتمال بالا می آید p. اگر سکه برای یک جفت گره مشخص بالا بیاید، یک لبه بین آن دو گره تشکیل می شود. در غیر این صورت بی ارتباط باقی می مانند. به عنوان ارزش p تغییرات، نمودارها می توانند انتقال ناگهانی در ویژگی های خود را نشان دهند. به عنوان مثال، وقتی p از آستانه معینی فراتر رود، گره های جدا شده - آنهایی که به هیچ گره دیگری متصل نیستند - ناگهان ناپدید می شوند.

آرورا و گویال متوجه شدند که نمودارهای تصادفی، که پس از رسیدن به آستانه‌های معین، منجر به رفتارهای غیرمنتظره می‌شوند، می‌توانند راهی برای مدل‌سازی رفتار LLM‌ها باشند. شبکه های عصبی تقریباً برای تجزیه و تحلیل بیش از حد پیچیده شده اند، اما ریاضیدانان برای مدت طولانی در حال مطالعه نمودارهای تصادفی بوده و ابزارهای مختلفی برای تجزیه و تحلیل آنها توسعه داده اند. شاید نظریه نمودار تصادفی بتواند راهی برای درک و پیش‌بینی رفتارهای ظاهراً غیرمنتظره LLM‌های بزرگ به محققان بدهد.

محققان تصمیم گرفتند بر روی نمودارهای "دوبخشی" تمرکز کنند که شامل دو نوع گره است. در مدل آن‌ها، یک نوع گره، تکه‌های متن را نشان می‌دهد - نه کلمات جداگانه، بلکه تکه‌هایی که می‌توانند یک پاراگراف تا چند صفحه باشند. این گره ها در یک خط مستقیم قرار گرفته اند. در زیر آنها، در یک خط دیگر، مجموعه دیگری از گره ها قرار دارد. اینها نشان دهنده مهارت های مورد نیاز برای معنا بخشیدن به یک قطعه متن خاص است. هر مهارت می تواند تقریباً هر چیزی باشد. شاید یک گره نشان دهنده توانایی یک LLM برای درک کلمه "زیرا" باشد که مفهومی از علیت را در بر می گیرد. دیگری می تواند نشان دهنده توانایی تقسیم دو عدد باشد. یکی دیگر ممکن است نشان دهنده توانایی تشخیص کنایه باشد. آرورا گفت: «اگر متوجه شدید که متن کنایه‌آمیز است، خیلی چیزها تغییر می‌کنند. "این مربوط به پیش بینی کلمات است."

برای روشن بودن، LLM ها با در نظر گرفتن مهارت ها آموزش یا آزمایش نمی شوند. آنها فقط برای بهبود پیش بینی کلمه بعدی ساخته شده اند. اما آرورا و گویال می‌خواستند LLM را از منظر مهارت‌هایی که ممکن است برای درک یک متن مورد نیاز باشد، درک کنند. ارتباط بین یک گره مهارت و یک گره متن، یا بین گره های مهارتی متعدد و یک گره متن، به این معنی است که LLM برای درک متن در آن گره به آن مهارت ها نیاز دارد. همچنین، چندین قطعه متن ممکن است از یک مهارت یا مجموعه ای از مهارت ها استخراج شود. به عنوان مثال، مجموعه‌ای از گره‌های مهارتی که توانایی درک کنایه را نشان می‌دهند، به گره‌های متنی متعددی که کنایه در آنها رخ می‌دهد متصل می‌شوند.

اکنون چالش این بود که این نمودارهای دوبخشی را به LLMهای واقعی متصل کنیم و ببینیم که آیا نمودارها می توانند چیزی در مورد ظهور توانایی های قدرتمند نشان دهند. اما محققان نمی توانند به هیچ اطلاعاتی در مورد آموزش یا آزمایش LLM های واقعی اعتماد کنند - شرکت هایی مانند OpenAI یا DeepMind داده های آموزش یا آزمایش خود را عمومی نمی کنند. همچنین، Arora و Goyal می‌خواستند پیش‌بینی کنند که چگونه LLM‌ها با بزرگ‌تر شدن رفتار خواهند کرد، و چنین اطلاعاتی برای چت‌بات‌های آینده در دسترس نیست. با این حال، یک بخش مهم از اطلاعات وجود داشت که محققان می توانستند به آن دسترسی داشته باشند.

از سال 2021، محققانی که عملکرد LLM و سایر شبکه‌های عصبی را مطالعه می‌کنند، شاهد ظهور یک ویژگی جهانی بوده‌اند. آنها متوجه شدند که با بزرگتر شدن یک مدل، چه از نظر اندازه و چه از نظر مقدار داده های آموزشی، از دست دادن آن در داده های آزمون (تفاوت بین پاسخ های پیش بینی شده و صحیح در متون جدید، پس از آموزش) به روشی بسیار خاص کاهش می یابد. این مشاهدات در معادلاتی به نام قوانین مقیاس عصبی مدون شده اند. بنابراین آرورا و گویال تئوری خود را طوری طراحی کردند که به داده‌های هر LLM، ربات چت یا مجموعه‌ای از داده‌های آموزشی و آزمایشی وابسته نباشد، بلکه به قانون جهانی که همه این سیستم‌ها انتظار دارند از آن تبعیت کنند: ضرری که توسط قوانین مقیاس‌بندی پیش‌بینی می‌شود، وابسته نباشد.

شاید، آنها استدلال کردند، عملکرد بهبود یافته - همانطور که با قوانین مقیاس عصبی اندازه گیری می شود - با بهبود مهارت ها مرتبط است. و این مهارت های بهبود یافته را می توان در نمودارهای دوبخشی آنها با اتصال گره های مهارت به گره های متنی تعریف کرد. ایجاد این پیوند - بین قوانین مقیاس‌گذاری عصبی و نمودارهای دوبخشی - کلیدی بود که به آنها اجازه می‌داد ادامه دهند.

مهارت های افزایش مقیاس

محققان با این فرض شروع کردند که یک نمودار فرضی دوبخشی وجود دارد که با رفتار LLM در داده‌های آزمایش مطابقت دارد. برای توضیح تغییر در از دست دادن LLM در داده های آزمون، آنها راهی را برای استفاده از نمودار برای توصیف چگونگی کسب مهارت های LLM تصور کردند.

به عنوان مثال، مهارت "درک کنایه" را در نظر بگیرید. این ایده با یک گره مهارت نشان داده می شود، بنابراین محققان به دنبال این هستند که ببینند این گره مهارت به چه گره های متنی متصل می شود. اگر تقریباً همه این گره‌های متنی متصل موفق باشند - به این معنی که پیش‌بینی‌های LLM روی متن نشان‌داده‌شده توسط این گره‌ها بسیار دقیق هستند - پس LLM در این مهارت خاص صلاحیت دارد. اما اگر بیش از بخش خاصی از اتصالات گره مهارت به گره های متنی ناموفق برود، LLM در این مهارت شکست می خورد.

این ارتباط بین این نمودارهای دوبخشی و LLMها به آرورا و گویال اجازه داد تا از ابزارهای نظریه گراف تصادفی برای تجزیه و تحلیل رفتار LLM توسط پروکسی استفاده کنند. مطالعه این نمودارها روابط خاصی را بین گره ها نشان داد. این روابط، به نوبه خود، به روشی منطقی و قابل آزمایش برای توضیح اینکه چگونه مدل‌های بزرگ مهارت‌های لازم برای دستیابی به توانایی‌های غیرمنتظره خود را به دست می‌آورند، ترجمه شد.

آرورا و گویال ابتدا یک رفتار کلیدی را توضیح دادند: چرا LLMهای بزرگتر از همتایان کوچکتر خود در مهارتهای فردی ماهرتر می شوند. آنها با افت تست کمتری که توسط قوانین مقیاس عصبی پیش بینی شده بود شروع کردند. در یک نمودار، این تلفات تست کمتر با سقوط در کسری از گره های تست شکست خورده نشان داده می شود. بنابراین گره های تست شکست خورده کمتری وجود دارد. و اگر گره های تست شکست خورده کمتری وجود داشته باشد، اتصالات کمتری بین گره های تست شکست خورده و گره های مهارت وجود دارد. بنابراین، تعداد بیشتری از گره‌های مهارت به گره‌های آزمون موفق متصل می‌شوند که نشان‌دهنده شایستگی رو به رشد در مهارت‌ها برای مدل است. گویال گفت: «کاهش بسیار جزئی از دست دادن باعث می‌شود که ماشین صلاحیت این مهارت‌ها را کسب کند.

سپس، این زوج راهی برای توضیح توانایی‌های غیرمنتظره یک مدل بزرگتر پیدا کردند. همانطور که اندازه یک LLM افزایش می‌یابد و از دست دادن تست آن کاهش می‌یابد، ترکیب‌های تصادفی گره‌های مهارت، اتصالاتی را با گره‌های متنی جداگانه ایجاد می‌کنند. این نشان می‌دهد که LLM همچنین در استفاده از بیش از یک مهارت در یک زمان بهتر می‌شود و شروع به تولید متن با استفاده از مهارت‌های متعدد می‌کند - مثلاً ترکیبی از توانایی استفاده از کنایه با درک کلمه "زیرا" - حتی اگر این ترکیبات دقیق از مهارت ها در هیچ متنی در داده های آموزشی وجود نداشت.

برای مثال، یک LLM را تصور کنید که می تواند از یک مهارت برای تولید متن استفاده کند. اگر تعداد پارامترها یا داده های آموزشی LLM را با یک مرتبه بزرگتر کنید، به همان اندازه در تولید متنی که به دو مهارت نیاز دارد، توانمند می شود. مرتبه دیگری از قدر بالا بروید، و LLM اکنون می تواند وظایفی را که به چهار مهارت در آن واحد نیاز دارند، دوباره با همان سطح شایستگی انجام دهد. LLM های بزرگتر راه های بیشتری برای کنار هم قرار دادن مهارت ها دارند که منجر به انفجار ترکیبی توانایی ها می شود.

و با بزرگ‌تر شدن یک LLM، این احتمال که با تمام این ترکیب‌ها از مهارت‌ها در داده‌های آموزشی مواجه شود، به‌طور فزاینده‌ای بعید می‌شود. طبق قواعد تئوری گراف تصادفی، هر ترکیبی از یک نمونه گیری تصادفی از مهارت های ممکن ناشی می شود. بنابراین، اگر حدود 1,000 گره مهارت فردی زیربنایی در نمودار وجود داشته باشد، و شما بخواهید چهار مهارت را با هم ترکیب کنید، تقریباً 1,000 تا قدرت چهارم - یعنی 1 تریلیون - راه ممکن برای ترکیب آنها وجود دارد.

Arora و Goyal این را به عنوان دلیلی می‌دانند که بزرگ‌ترین LLM‌ها فقط به ترکیبی از مهارت‌هایی که در داده‌های آموزشی خود دیده‌اند متکی نیستند. بابک موافق است. او گفت: «اگر یک LLM واقعاً قادر به انجام آن وظایف با ترکیب چهار مورد از این هزار مهارت باشد، پس باید تعمیم را انجام دهد. به این معنی که به احتمال بسیار زیاد یک طوطی تصادفی نیست.

خلاقیت واقعی؟

اما آرورا و گویال می‌خواستند فراتر از تئوری بروند و ادعای خود را در مورد اینکه LLMها در ترکیب مهارت‌های بیشتر و در نتیجه تعمیم، با افزایش اندازه و داده‌های آموزشی بهتر می‌شوند، آزمایش کنند. آنها به همراه سایر همکاران روشی طراحی کرد برای ارزیابی توانایی یک LLM در استفاده از مهارت‌های متعدد برای تولید متن، «میکس مهارت» نامیده می‌شود.

برای آزمایش یک LLM، تیم از آن خواست تا سه جمله در مورد موضوعی که به‌طور تصادفی انتخاب شده بود تولید کند که نشان‌دهنده مهارت‌های انتخابی تصادفی بود. به عنوان مثال، آنها از GPT-4 (LLM که قدرتمندترین نسخه ChatGPT را قدرت می دهد) خواستند که در مورد دوئل بنویسد - اساساً مبارزات شمشیر. علاوه بر این، آنها از آن خواستند تا مهارت‌های خود را در چهار زمینه نشان دهد: تعصب خود خدمت، استعاره، قیاس آماری و فیزیک دانش عمومی.. GPT-4 پاسخ داد: «پیروزی من در این رقص با فولاد [استعاره] به اندازه سقوط یک جسم به زمین [فیزیک] قطعی است. به عنوان یک دوئست مشهور، من ذاتاً زیرک هستم، درست مانند بسیاری دیگر [قیاس های آماری] که شهرتم دارند. شکست؟ تنها به دلیل یک میدان جنگ ناهموار، نه به دلیل نارسایی من [سوگیری خودخواهانه] امکان پذیر است.» وقتی از GPT-4 خواسته شد خروجی آن را بررسی کند، آن را به سه جمله کاهش داد.

معرفی

آرورا گفت: «این همینگوی یا شکسپیر نیست،» اما تیم مطمئن است که حرف آنها را ثابت می‌کند: این مدل می‌تواند متنی را تولید کند که احتمالاً نمی‌توانست در داده‌های آموزشی ببیند، و مهارت‌هایی را نشان می‌دهد که با چیزی که برخی استدلال می‌کنند جمع می‌شود. درک است. او گفت که GPT-4 حتی در حال گذراندن آزمون‌های ترکیبی مهارت است که در حدود 10 تا 15 درصد مواقع به شش مهارت نیاز دارد و قطعات متنی را تولید می‌کند که از نظر آماری غیرممکن است که در داده‌های آموزشی وجود داشته باشد.

این تیم همچنین با دریافت GPT-4 برای ارزیابی خروجی خود، همراه با سایر LLM ها، فرآیند را خودکار کرد. Arora گفت که عادلانه است که مدل خودش را ارزیابی کند زیرا حافظه ندارد، بنابراین به خاطر نمی‌آورد که از آن خواسته شده است همان متنی را که از آن خواسته شده است تولید کند. یاسامان بحری، محقق Google DeepMind که روی پایه های هوش مصنوعی کار می کند، رویکرد خودکار را «بسیار ساده و ظریف» می داند.

بابک گفت، در مورد این نظریه، درست است که چند فرض مطرح می کند، اما "این فرضیات به هیچ وجه احمقانه نیستند." او همچنین تحت تأثیر آزمایشات قرار گرفت. او گفت: «آنچه [تیم] از نظر تئوری ثابت می‌کند، و همچنین به‌طور تجربی تأیید می‌کند، این است که تعمیم ترکیبی وجود دارد، به این معنی که [LLMها] می‌توانند بلوک‌های سازنده‌ای را که هرگز کنار هم قرار نداده‌اند، کنار هم قرار دهند. "از نظر من، این جوهر خلاقیت است."

آرورا اضافه می کند که این کار چیزی در مورد دقت آنچه LLM ها می نویسند نمی گوید. او گفت: «در واقع، این بحث برای اصالت است. این چیزها هرگز در مجموعه آموزشی جهان وجود نداشته است. هیچ کس تا به حال این را ننوشته است. باید توهم داشته باشد.»

با این وجود، هینتون فکر می‌کند که کار باید به این سوال که آیا LLMها طوطی‌های تصادفی هستند یا خیر، پایان می‌دهد. او گفت: «این دقیق‌ترین روشی است که من برای نشان دادن این موضوع که GPT-4 بسیار بیشتر از یک طوطی تصادفی است، دیده‌ام. آنها به طور قانع‌کننده‌ای نشان می‌دهند که GPT-4 می‌تواند متنی ایجاد کند که مهارت‌ها و موضوعات را به روش‌هایی ترکیب کند که تقریباً به طور قطع در داده‌های آموزشی وجود نداشته است.» (ما برای دیدگاه او در مورد کار جدید با بندر تماس گرفتیم، اما او به دلیل کمبود وقت از اظهار نظر خودداری کرد.)

و در واقع، همانطور که ریاضیات پیش‌بینی می‌کنند، عملکرد GPT-4 بسیار بهتر از نسل قبلی خود، GPT-3.5 است - تا حدی که آرورا را وحشت زده کرد. او گفت: «احتمالاً فقط من نیستم. «بسیاری از مردم آن را کمی وهم‌آور می‌دانستند که چقدر GPT-4 بهتر از GPT-3.5 است، و این در عرض یک سال اتفاق افتاد. آیا این بدان معناست که در یک سال دیگر ما تغییر مشابهی در آن بزرگی خواهیم داشت؟ من نمی دانم. فقط OpenAI می داند."

تمبر زمان:

بیشتر از مجله کوانتاما