حل لغز التعلم الآلي

حل لغز التعلم الآلي

عقدة المصدر: 1944875
07 فبراير 2023 (أخبار Nanowerk) نماذج اللغات الكبيرة مثل GPT-3 من OpenAI عبارة عن شبكات عصبية ضخمة يمكنها توليد نص يشبه الإنسان، من الشعر إلى كود البرمجة. بعد تدريبها باستخدام مجموعات كبيرة من بيانات الإنترنت، تأخذ نماذج التعلم الآلي هذه جزءًا صغيرًا من نص الإدخال ثم تتنبأ بالنص الذي من المحتمل أن يأتي بعد ذلك. لكن هذا ليس كل ما تستطيع هذه النماذج فعله. يستكشف الباحثون ظاهرة غريبة تُعرف بالتعلم في السياق، حيث يتعلم نموذج لغوي كبير إنجاز مهمة بعد رؤية أمثلة قليلة فقط - على الرغم من أنه لم يتم تدريبه على هذه المهمة. على سبيل المثال، يمكن لشخص ما تغذية النموذج بالعديد من الجمل النموذجية ومشاعرها (الإيجابية أو السلبية)، ثم حثه بجملة جديدة، ويمكن للنموذج أن يعطي المشاعر الصحيحة. عادةً ما يحتاج نموذج التعلم الآلي مثل GPT-3 إلى إعادة تدريبه باستخدام بيانات جديدة لهذه المهمة الجديدة. أثناء عملية التدريب هذه، يقوم النموذج بتحديث معلماته أثناء معالجة المعلومات الجديدة لتعلم المهمة. ولكن مع التعلم في السياق، لا يتم تحديث معلمات النموذج، لذلك يبدو أن النموذج يتعلم مهمة جديدة دون تعلم أي شيء على الإطلاق. يسعى علماء من معهد ماساتشوستس للتكنولوجيا وأبحاث جوجل وجامعة ستانفورد جاهدين لكشف هذا اللغز. لقد درسوا نماذج تشبه إلى حد كبير نماذج اللغات الكبيرة لمعرفة كيف يمكنهم التعلم دون تحديث المعلمات. تظهر النتائج النظرية للباحثين أن نماذج الشبكات العصبية الضخمة هذه قادرة على احتواء نماذج خطية أصغر وأبسط مدفونة بداخلها. يمكن للنموذج الكبير بعد ذلك تنفيذ خوارزمية تعليمية بسيطة لتدريب هذا النموذج الخطي الأصغر لإكمال مهمة جديدة، باستخدام المعلومات الموجودة بالفعل في النموذج الأكبر فقط. تظل معلماتها ثابتة. يعد هذا البحث خطوة مهمة نحو فهم الآليات الكامنة وراء التعلم في السياق، ويفتح الباب لمزيد من الاستكشاف حول خوارزميات التعلم التي يمكن لهذه النماذج الكبيرة تنفيذها، كما يقول إيكين أكيوريك، طالب دراسات عليا في علوم الكمبيوتر والمؤلف الرئيسي لورقة بحثية (“What learning algorithm is in-context learning? Investigations with linear models”) استكشاف هذه الظاهرة. ومن خلال فهم أفضل للتعلم في السياق، يمكن للباحثين تمكين النماذج من إكمال مهام جديدة دون الحاجة إلى إعادة تدريب مكلفة. "عادة، إذا كنت ترغب في ضبط هذه النماذج، فأنت بحاجة إلى جمع البيانات الخاصة بالمجال والقيام ببعض الأعمال الهندسية المعقدة. ولكن الآن يمكننا فقط تغذيتها بمدخلات، وخمسة أمثلة، وسوف تحقق ما نريد. يقول أكيوريك: "لذا فإن التعلم في السياق يعد ظاهرة مثيرة جدًا". ينضم إلى أكيوريك في هذه الورقة ديل شورمانز، عالم الأبحاث في Google Brain وأستاذ علوم الحوسبة في جامعة ألبرتا؛ بالإضافة إلى كبار المؤلفين جاكوب أندرياس، الأستاذ المساعد في اتحاد X في قسم الهندسة الكهربائية وعلوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا وعضو في مختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا (CSAIL)؛ وتنغيو ما، أستاذ مساعد في علوم الكمبيوتر والإحصاء في جامعة ستانفورد؛ وداني تشو، العالم الرئيسي ومدير الأبحاث في Google Brain. وسيقدم البحث في المؤتمر الدولي لتمثيلات التعلم.

نموذج داخل نموذج

يقول أكيوريك إنه في مجتمع أبحاث التعلم الآلي، أصبح العديد من العلماء يعتقدون أن نماذج اللغة الكبيرة يمكنها إجراء التعلم في السياق بسبب كيفية تدريبها. على سبيل المثال، يحتوي GPT-3 على مئات المليارات من المعلمات وتم تدريبه من خلال قراءة كميات كبيرة من النصوص على الإنترنت، بدءًا من مقالات ويكيبيديا وحتى منشورات Reddit. لذلك، عندما يعرض شخص ما أمثلة نموذجية لمهمة جديدة، فمن المحتمل أنه قد رأى بالفعل شيئًا مشابهًا جدًا لأن مجموعة بيانات التدريب الخاصة به تضمنت نصًا من مليارات مواقع الويب. فهو يكرر الأنماط التي شاهدها أثناء التدريب، بدلاً من تعلم أداء مهام جديدة. افترض أكيوريك أن المتعلمين في السياق لا يطابقون الأنماط التي سبق رؤيتها فحسب، بل يتعلمون في الواقع أداء مهام جديدة. لقد قام هو وآخرون بإجراء التجارب من خلال إعطاء هذه النماذج مطالبات باستخدام البيانات الاصطناعية، والتي لم يكن بإمكانهم رؤيتها في أي مكان من قبل، ووجدوا أن النماذج لا يزال بإمكانها التعلم من بضعة أمثلة فقط. اعتقد أكيوريك وزملاؤه أنه ربما تحتوي نماذج الشبكات العصبية هذه على نماذج أصغر للتعلم الآلي بداخلها، والتي يمكن للنماذج تدريبها لإكمال مهمة جديدة. ويقول: "هذا يمكن أن يفسر تقريبًا جميع ظواهر التعلم التي رأيناها مع هذه النماذج الكبيرة". لاختبار هذه الفرضية، استخدم الباحثون نموذج شبكة عصبية يسمى المحول، والذي له نفس بنية GPT-3، ولكن تم تدريبه خصيصًا للتعلم في السياق. ومن خلال استكشاف بنية هذا المحول، أثبتوا نظريًا أنه يمكنه كتابة نموذج خطي ضمن حالاته المخفية. تتكون الشبكة العصبية من عدة طبقات من العقد المترابطة التي تعالج البيانات. الحالات المخفية هي الطبقات الموجودة بين طبقات الإدخال والإخراج. تظهر تقييماتهم الرياضية أن هذا النموذج الخطي مكتوب في مكان ما في الطبقات الأولى للمحول. يمكن للمحول بعد ذلك تحديث النموذج الخطي من خلال تنفيذ خوارزميات تعلم بسيطة. في جوهر الأمر، يحاكي النموذج ويدرب نسخة أصغر منه.

فحص الطبقات المخفية

استكشف الباحثون هذه الفرضية باستخدام تجارب التحقيق، حيث بحثوا في الطبقات المخفية للمحول لمحاولة استعادة كمية معينة. "في هذه الحالة، حاولنا استعادة الحل الفعلي للنموذج الخطي، ويمكننا إظهار أن المعلمة مكتوبة في الحالات المخفية. وهذا يعني أن النموذج الخطي موجود في مكان ما». وبناءً على هذا العمل النظري، قد يتمكن الباحثون من تمكين المحول من أداء التعلم في السياق عن طريق إضافة طبقتين فقط إلى الشبكة العصبية. ويحذر أكيوريك من أنه لا يزال هناك الكثير من التفاصيل الفنية التي يتعين العمل عليها قبل أن يصبح ذلك ممكنًا، لكنه قد يساعد المهندسين على إنشاء نماذج يمكنها إكمال مهام جديدة دون الحاجة إلى إعادة التدريب على البيانات الجديدة. للمضي قدمًا، تخطط أكيوريك لمواصلة استكشاف التعلم في السياق بوظائف أكثر تعقيدًا من النماذج الخطية التي درسوها في هذا العمل. يمكنهم أيضًا تطبيق هذه التجارب على نماذج لغوية كبيرة لمعرفة ما إذا كانت سلوكياتهم موصوفة أيضًا بواسطة خوارزميات تعلم بسيطة. بالإضافة إلى ذلك، يريد التعمق في أنواع بيانات التدريب المسبق التي يمكنها تمكين التعلم في السياق. "من خلال هذا العمل، يمكن للناس الآن تصور كيف يمكن لهذه النماذج أن تتعلم من الأمثلة. يقول أكيوريك: "لذا، آمل أن يغير هذا آراء بعض الناس حول التعلم في سياق التعلم". "هذه النماذج ليست غبية كما يعتقد الناس. إنهم لا يحفظون هذه المهام فقط. يمكنهم تعلم مهام جديدة، وقد أظهرنا كيف يمكن القيام بذلك”.

الطابع الزمني:

اكثر من نانوويرك