A Better Way To Evaluate LLMs - KDnuggets

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

LLMs کی ترقی میں حالیہ پیشرفت نے متنوع NLP کاموں کے لیے ان کے استعمال کو مقبول بنا دیا ہے جو پہلے مشین سیکھنے کے پرانے طریقوں سے نمٹائے جاتے تھے۔ بڑے زبان کے ماڈلز زبان کے مختلف مسائل جیسے کہ درجہ بندی، خلاصہ، معلومات کی بازیافت، مواد کی تخلیق، سوالوں کے جوابات، اور گفتگو کو برقرار رکھنے کی صلاحیت رکھتے ہیں - یہ سب صرف ایک ماڈل کا استعمال کرتے ہوئے ہیں۔ لیکن ہم کیسے جانتے ہیں کہ وہ ان تمام مختلف کاموں پر اچھا کام کر رہے ہیں؟

LLMs کے عروج نے ایک حل طلب مسئلہ کو سامنے لایا ہے: ہمارے پاس ان کا جائزہ لینے کے لیے کوئی قابل اعتماد معیار نہیں ہے۔ جو چیز تشخیص کو مشکل بناتی ہے وہ یہ ہے کہ وہ انتہائی متنوع کاموں کے لیے استعمال ہوتے ہیں اور ہمارے پاس اس بات کی واضح تعریف نہیں ہے کہ ہر استعمال کے معاملے کے لیے کیا اچھا جواب ہے۔

یہ مضمون LLMs کا جائزہ لینے کے لیے موجودہ طریقوں پر بحث کرتا ہے اور ایک نیا LLM لیڈر بورڈ متعارف کرایا گیا ہے جو انسانی تشخیص سے فائدہ اٹھاتا ہے جو موجودہ تشخیصی تکنیکوں کو بہتر بناتا ہے۔

تشخیص کی پہلی اور معمول کی ابتدائی شکل ماڈل کو کئی کیوریٹڈ ڈیٹاسیٹس پر چلانا اور اس کی کارکردگی کا جائزہ لینا ہے۔ HuggingFace نے ایک بنایا ایل ایل ایم لیڈر بورڈ کھولیں۔ جہاں چار معروف ڈیٹاسیٹس کا استعمال کرتے ہوئے کھلی رسائی والے بڑے ماڈلز کا جائزہ لیا جاتا ہے (AI2 ریزننگ چیلنج , HellaSwag , ایم ایم ایل یو , TruthfulQA)۔ یہ خودکار تشخیص سے مطابقت رکھتا ہے اور کچھ مخصوص سوالات کے لیے حقائق حاصل کرنے کے لیے ماڈل کی اہلیت کو جانچتا ہے۔

یہ کی طرف سے ایک سوال کی ایک مثال ہے ایم ایم ایل یو ڈیٹاسیٹ

موضوع: کالج_میڈیسن

سوال: کریٹائن سپلیمنٹیشن کا متوقع ضمنی اثر ہے؟

A) پٹھوں کی کمزوری۔
ب) جسم کے بڑے پیمانے پر اضافہ
ج) پٹھوں میں درد
D) الیکٹرولائٹس کا نقصان

جواب: (بی)

اس قسم کے سوال کا جواب دینے پر ماڈل کو اسکور کرنا ایک اہم میٹرک ہے اور حقائق کی جانچ پڑتال کے لیے اچھا کام کرتا ہے لیکن یہ ماڈل کی تخلیقی صلاحیت کی جانچ نہیں کرتا ہے۔ یہ شاید اس تشخیصی طریقہ کار کا سب سے بڑا نقصان ہے کیونکہ مفت متن تیار کرنا LLMs کی سب سے اہم خصوصیات میں سے ایک ہے۔

ایسا لگتا ہے کہ کمیونٹی کے اندر ایک اتفاق رائے ہے کہ ماڈل کا صحیح اندازہ لگانے کے لیے ہمیں انسانی تشخیص کی ضرورت ہے۔ یہ عام طور پر مختلف ماڈلز کے جوابات کا موازنہ کرکے کیا جاتا ہے۔

LLMs کا اندازہ کرنے کا ایک بہتر طریقہ
LMSYS پروجیکٹ میں دو فوری تکمیل کا موازنہ کرنا - مصنف کا اسکرین شاٹ

تشریح کنندگان فیصلہ کرتے ہیں کہ کون سا جواب بہتر ہے، جیسا کہ اوپر کی مثال میں دیکھا گیا ہے، اور بعض اوقات فوری تکمیل کے معیار میں فرق کا اندازہ لگاتے ہیں۔ LMSYS Org نے ایک تخلیق کیا ہے۔ لیڈربورڈ جو اس قسم کی انسانی تشخیص کا استعمال کرتا ہے اور 17 مختلف ماڈلز کا موازنہ کرتا ہے۔ ایلو ریٹنگ ہر ماڈل کے لیے۔

چونکہ انسانی تشخیص کو پیمانہ کرنا مشکل ہو سکتا ہے، اس لیے تشخیص کے عمل کو پیمانہ اور تیز کرنے کی کوششیں کی گئی ہیں اور اس کے نتیجے میں ایک دلچسپ پروجیکٹ سامنے آیا الپاکا ایول. یہاں ہر ماڈل کا موازنہ ایک بیس لائن سے کیا جاتا ہے (text-davinci-003 GPT-4 کے ذریعے فراہم کیا جاتا ہے) اور انسانی تشخیص کو GPT-4 فیصلے سے بدل دیا جاتا ہے۔ یہ واقعی تیز اور توسیع پذیر ہے لیکن کیا ہم اسکورنگ کو انجام دینے کے لیے یہاں کے ماڈل پر بھروسہ کر سکتے ہیں؟ ہمیں ماڈل کے تعصبات سے آگاہ ہونے کی ضرورت ہے۔ پروجیکٹ نے حقیقت میں دکھایا ہے کہ GPT-4 طویل جوابات کے حق میں ہو سکتا ہے۔

LLM کی تشخیص کے طریقے مسلسل تیار ہو رہے ہیں کیونکہ AI کمیونٹی آسان، منصفانہ، اور توسیع پذیر طریقوں کی تلاش کر رہی ہے۔ Toloka میں ٹیم کی طرف سے تازہ ترین پیش رفت ایک نئی کے ساتھ آتی ہے۔ لیڈربورڈ موجودہ تشخیصی معیارات کو مزید آگے بڑھانے کے لیے۔

نیا لیڈربورڈ ماڈل کے جوابات کا حقیقی دنیا کے صارف کے اشارے سے موازنہ کرتا ہے جن کی درجہ بندی مفید NLP کاموں کے ذریعہ کی گئی ہے جیسا کہ میں بیان کیا گیا ہے۔ یہ InstructGPT پیپر. یہ تمام زمروں میں ہر ماڈل کی جیت کی مجموعی شرح کو بھی دکھاتا ہے۔

LLMs کا اندازہ کرنے کا ایک بہتر طریقہ
Toloka لیڈر بورڈ - مصنف کا اسکرین شاٹ

اس پروجیکٹ کے لیے استعمال کی جانے والی تشخیص AlpacaEval میں کی جانے والی تشخیص سے ملتی جلتی ہے۔ لیڈر بورڈ پر اسکور متعلقہ ماڈل کے مقابلے میں جیت کی شرح کی نمائندگی کرتے ہیں۔ گواناکو 13 بی ماڈل، جو یہاں ایک بنیادی موازنہ کے طور پر کام کرتا ہے۔ Guanaco 13B کا انتخاب AlpacaEval طریقہ کار میں بہتری ہے، جو جلد ہی پرانے ٹیکسٹ-davinci-003 ماڈل کو بیس لائن کے طور پر استعمال کرتا ہے۔

حقیقی تشخیص حقیقی دنیا کے اشارے کے ایک سیٹ پر انسانی ماہر تشریح کاروں کے ذریعہ کیا جاتا ہے۔ ہر پرامپٹ کے لیے، تشریح کرنے والوں کو دو تکمیلات دی جاتی ہیں اور پوچھا جاتا ہے کہ وہ کس کو ترجیح دیتے ہیں۔ آپ طریقہ کار کے بارے میں تفصیلات حاصل کر سکتے ہیں۔ یہاں.

اس قسم کی انسانی تشخیص کسی دوسرے خودکار تشخیصی طریقہ سے زیادہ کارآمد ہے اور اس کے لیے استعمال ہونے والے انسانی تشخیص میں بہتری آنی چاہیے۔ LMSYS لیڈر بورڈ۔ LMSYS طریقہ کار کا منفی پہلو یہ ہے کہ کوئی بھی اس کے ساتھ لنک اس طریقے سے جمع کیے گئے ڈیٹا کے معیار کے بارے میں سنجیدہ سوالات اٹھاتے ہوئے، تشخیص میں حصہ لے سکتے ہیں۔ ماہر تشریح کاروں کا ایک بند ہجوم قابل اعتماد نتائج کی بہتر صلاحیت رکھتا ہے، اور Toloka ڈیٹا کے معیار کو یقینی بنانے کے لیے اضافی کوالٹی کنٹرول تکنیکوں کا اطلاق کرتا ہے۔

اس مضمون میں، ہم نے LLMs کا جائزہ لینے کے لیے ایک امید افزا نیا حل پیش کیا ہے — Toloka لیڈر بورڈ۔ نقطہ نظر جدید ہے، موجودہ طریقوں کی طاقتوں کو یکجا کرتا ہے، کام کے لیے مخصوص گرانولریٹی کا اضافہ کرتا ہے، اور ماڈلز کا موازنہ کرنے کے لیے قابل اعتماد انسانی تشریحی تکنیک کا استعمال کرتا ہے۔

بورڈ کو دریافت کریں، اور بہتری کے لیے اپنی رائے اور تجاویز ہمارے ساتھ شیئر کریں۔

میگڈالینا کونکیوچز Toloka میں ایک ڈیٹا ایوینجلسٹ ہے، ایک عالمی کمپنی جو تیز رفتار اور قابل توسیع AI کی ترقی کی حمایت کرتی ہے۔ اس نے ایڈنبرا یونیورسٹی سے مصنوعی ذہانت میں ماسٹرز کی ڈگری حاصل کی ہے اور یورپ اور امریکہ میں کاروبار کے لیے NLP انجینئر، ڈیولپر، اور ڈیٹا سائنٹسٹ کے طور پر کام کیا ہے۔ وہ ڈیٹا سائنسدانوں کی تعلیم اور رہنمائی میں بھی شامل رہی ہے اور ڈیٹا سائنس اور مشین لرننگ پبلیکیشنز میں باقاعدگی سے حصہ ڈالتی ہے۔