روشی بهتر برای ارزیابی LLM - KDnuggets

بازنشر افلاطون

دنبال: 0

پیشرفت‌های اخیر در توسعه LLMها، استفاده از آن‌ها را برای کارهای متنوع NLP که قبلاً با استفاده از روش‌های یادگیری ماشین قدیمی‌تر انجام می‌شد، رایج کرده است. مدل‌های زبانی بزرگ قادر به حل انواع مشکلات زبانی مانند طبقه‌بندی، خلاصه‌سازی، بازیابی اطلاعات، ایجاد محتوا، پاسخ‌گویی به سؤال و حفظ مکالمه هستند - همه فقط با استفاده از یک مدل واحد. اما چگونه بفهمیم که آنها در تمام این وظایف مختلف کار خوبی انجام می دهند؟

ظهور LLM ها یک مشکل حل نشده را آشکار کرده است: ما استاندارد قابل اعتمادی برای ارزیابی آنها نداریم. چیزی که ارزیابی را سخت‌تر می‌کند این است که از آن‌ها برای وظایف بسیار متنوع استفاده می‌شود و ما فاقد تعریف روشنی از پاسخ مناسب برای هر مورد استفاده هستیم.

این مقاله رویکردهای فعلی برای ارزیابی LLMها را مورد بحث قرار می‌دهد و یک تابلوی امتیازات جدید LLM را با استفاده از ارزیابی انسانی معرفی می‌کند که تکنیک‌های ارزیابی موجود را بهبود می‌بخشد.

اولین و معمول شکل اولیه ارزیابی، اجرای مدل بر روی چندین مجموعه داده انتخاب شده و بررسی عملکرد آن است. HuggingFace یک تابلوی امتیازات LLM را باز کنید که در آن مدل های بزرگ با دسترسی باز با استفاده از چهار مجموعه داده شناخته شده ارزیابی می شوند (چالش استدلال AI2 , هلاسواگ , MMLU , TruthfulQA). این مربوط به ارزیابی خودکار است و توانایی مدل را برای بدست آوردن حقایق برای برخی سؤالات خاص بررسی می کند.

این نمونه ای از یک سوال از طرف MMLU مجموعه داده

موضوع: کالج_پزشکی

سوال: یک عارضه جانبی مورد انتظار مکمل کراتین است.

الف) ضعف عضلانی
ب) افزایش توده بدن
ج) گرفتگی عضلات
د) از دست دادن الکترولیت ها

پاسخ: (ب)

امتیاز دادن به مدل در پاسخ به این نوع سؤال، معیار مهمی است و برای بررسی واقعیت به خوبی عمل می کند، اما توانایی تولیدی مدل را آزمایش نمی کند. این احتمالاً بزرگترین نقطه ضعف این روش ارزیابی است زیرا تولید متن آزاد یکی از مهم ترین ویژگی های LLM است.

به نظر می رسد در جامعه اتفاق نظر وجود دارد که برای ارزیابی صحیح مدل نیاز به ارزیابی انسانی داریم. این معمولاً با مقایسه پاسخ‌های مدل‌های مختلف انجام می‌شود.

روشی بهتر برای ارزیابی LLM
مقایسه دو تکمیل سریع در پروژه LMSYS - اسکرین شات توسط نویسنده

حاشیه نویس ها تصمیم می گیرند که کدام پاسخ بهتر است، همانطور که در مثال بالا مشاهده می شود، و گاهی اوقات تفاوت در کیفیت تکمیل های سریع را کمیت می کنند. LMSYS Org ایجاد کرده است رهبران که از این نوع ارزیابی انسانی استفاده می کند و 17 مدل مختلف را با هم مقایسه می کند و گزارش می دهد امتیاز الو برای هر مدل

از آنجایی که ارزیابی انسان می تواند مقیاس پذیر باشد، تلاش هایی برای مقیاس بندی و سرعت بخشیدن به فرآیند ارزیابی انجام شده است و این منجر به یک پروژه جالب به نام شد. AlpacaEval. در اینجا هر مدل با یک خط پایه مقایسه می شود (text-davinci-003 ارائه شده توسط GPT-4) و ارزیابی انسانی با قضاوت GPT-4 جایگزین می شود. این در واقع سریع و مقیاس پذیر است، اما آیا می توانیم به مدل در اینجا برای انجام امتیازدهی اعتماد کنیم؟ ما باید از تعصبات مدل آگاه باشیم. این پروژه در واقع نشان داده است که GPT-4 ممکن است به دنبال پاسخ های طولانی تر باشد.

روش‌های ارزیابی LLM همچنان که جامعه هوش مصنوعی به دنبال رویکردهای آسان، منصفانه و مقیاس‌پذیر است، به تکامل خود ادامه می‌دهد. آخرین پیشرفت از تیم تولوکا با یک جدید است رهبران برای پیشرفت بیشتر استانداردهای ارزیابی فعلی.

جدید رهبران پاسخ‌های مدل را با درخواست‌های کاربر در دنیای واقعی که بر اساس وظایف مفید NLP طبقه‌بندی می‌شوند، مقایسه می‌کند. این مقاله InstructGPT. همچنین میزان برد کلی هر مدل را در همه دسته ها نشان می دهد.

روشی بهتر برای ارزیابی LLM
تابلوی امتیازات Toloka - اسکرین شات توسط نویسنده

ارزیابی مورد استفاده برای این پروژه مشابه ارزیابی انجام شده در AlpacaEval است. نمرات در تابلوی امتیازات نشان دهنده نرخ برد مدل مربوطه در مقایسه با گواناکو 13 بی مدل، که در اینجا به عنوان یک مقایسه پایه عمل می کند. انتخاب Guanaco 13B بهبود روش AlpacaEval است که از مدل text-davinci-003 که به زودی منسوخ می شود به عنوان خط پایه استفاده می کند.

ارزیابی واقعی توسط حاشیه نویسان متخصص انسانی در مجموعه ای از اعلان های دنیای واقعی انجام می شود. برای هر درخواست، به حاشیه نویسان دو تکمیل داده می شود و از آنها سوال می شود که کدام یک را ترجیح می دهند. می توانید جزئیات مربوط به روش را بیابید اینجا کلیک نمایید.

این نوع ارزیابی انسانی مفیدتر از هر روش ارزیابی خودکار دیگری است و باید در ارزیابی انسانی مورد استفاده برای آن بهبود یابد جدول امتیازات LMSYS. نقطه ضعف روش LMSYS این است که هر کسی که با پیوند می تواند در ارزیابی شرکت کند و سؤالات جدی در مورد کیفیت داده های جمع آوری شده به این روش ایجاد کند. گروهی بسته از حاشیه نویسان خبره پتانسیل بهتری برای نتایج قابل اعتماد دارند و Toloka از تکنیک های کنترل کیفیت اضافی برای اطمینان از کیفیت داده ها استفاده می کند.

در این مقاله، ما یک راه حل نویدبخش جدید برای ارزیابی LLM ها معرفی کرده ایم - Toloka Leaderboard. این رویکرد نوآورانه است، نقاط قوت روش‌های موجود را ترکیب می‌کند، جزئیات مربوط به کار را اضافه می‌کند و از تکنیک‌های حاشیه‌نویسی انسانی قابل اعتماد برای مقایسه مدل‌ها استفاده می‌کند.

هیئت مدیره را بررسی کنید و نظرات و پیشنهادات خود را برای بهبود با ما در میان بگذارید.

ماگدالنا کونکیویچ مبشر داده در Toloka است، یک شرکت جهانی که از توسعه سریع و مقیاس پذیر هوش مصنوعی پشتیبانی می کند. او دارای مدرک کارشناسی ارشد در هوش مصنوعی از دانشگاه ادینبورگ است و به عنوان مهندس NLP، توسعه دهنده و دانشمند داده برای تجارت در اروپا و آمریکا کار کرده است. او همچنین در آموزش و راهنمایی دانشمندان داده شرکت داشته و به طور منظم در انتشارات علم داده و یادگیری ماشین مشارکت دارد.