A Better Way To Evaluate LLMs - KDnuggets

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

এলএলএম-এর বিকাশে সাম্প্রতিক অগ্রগতিগুলি বিভিন্ন এনএলপি কাজের জন্য তাদের ব্যবহার জনপ্রিয় করেছে যা পূর্বে পুরানো মেশিন লার্নিং পদ্ধতি ব্যবহার করে মোকাবেলা করা হয়েছিল। বৃহৎ ভাষার মডেলগুলি বিভিন্ন ভাষার সমস্যা যেমন শ্রেণীবিন্যাস, সংক্ষিপ্তকরণ, তথ্য পুনরুদ্ধার, বিষয়বস্তু তৈরি, প্রশ্নের উত্তর এবং একটি কথোপকথন বজায় রাখতে সক্ষম - সবই শুধুমাত্র একটি একক মডেল ব্যবহার করে। কিন্তু আমরা কিভাবে জানি যে তারা এই সমস্ত বিভিন্ন কাজের উপর একটি ভাল কাজ করছে?

এলএলএম-এর উত্থান একটি অমীমাংসিত সমস্যাকে আলোকিত করেছে: তাদের মূল্যায়ন করার জন্য আমাদের কাছে একটি নির্ভরযোগ্য মান নেই। যা মূল্যায়নকে আরও কঠিন করে তোলে তা হল যে এগুলি অত্যন্ত বৈচিত্র্যময় কাজের জন্য ব্যবহার করা হয় এবং প্রতিটি ব্যবহারের ক্ষেত্রে কী একটি ভাল উত্তর তা আমাদের কাছে স্পষ্ট সংজ্ঞা নেই।

এই নিবন্ধটি LLM মূল্যায়নের বর্তমান পন্থাগুলি নিয়ে আলোচনা করে এবং একটি নতুন LLM লিডারবোর্ড প্রবর্তন করে যা মানব মূল্যায়নের সুবিধা দেয় যা বিদ্যমান মূল্যায়ন কৌশলগুলির উপর উন্নতি করে।

মূল্যায়নের প্রথম এবং স্বাভাবিক প্রাথমিক রূপ হল মডেলটিকে বেশ কয়েকটি কিউরেটেড ডেটাসেটে চালানো এবং এর কার্যকারিতা পরীক্ষা করা। HuggingFace একটি তৈরি করেছে এলএলএম লিডারবোর্ড খুলুন যেখানে ওপেন-অ্যাক্সেস বড় মডেলগুলি চারটি সুপরিচিত ডেটাসেট ব্যবহার করে মূল্যায়ন করা হয় (AI2 রিজনিং চ্যালেঞ্জ , HellaSwag , MMLU , TruthfulQA) এটি স্বয়ংক্রিয় মূল্যায়নের সাথে সঙ্গতিপূর্ণ এবং কিছু নির্দিষ্ট প্রশ্নের জন্য তথ্য পাওয়ার মডেলের ক্ষমতা পরীক্ষা করে।

এটি থেকে একটি প্রশ্নের একটি উদাহরণ MMLU ডেটাসেট

বিষয়: কলেজ_মেডিসিন

প্রশ্ন: ক্রিয়েটাইন সাপ্লিমেন্টেশনের একটি প্রত্যাশিত পার্শ্ব প্রতিক্রিয়া হল।

ক) পেশী দুর্বলতা
খ) শরীরের ভর বৃদ্ধি
গ) পেশী ক্র্যাম্প
ঘ) ইলেক্ট্রোলাইটের ক্ষতি

উত্তর: (খ)

এই ধরনের প্রশ্নের উত্তর দেওয়ার জন্য মডেলকে স্কোর করা একটি গুরুত্বপূর্ণ মেট্রিক এবং এটি সত্য-নিরীক্ষার জন্য ভাল কাজ করে কিন্তু এটি মডেলের উৎপাদন ক্ষমতা পরীক্ষা করে না। এটি সম্ভবত এই মূল্যায়ন পদ্ধতির সবচেয়ে বড় অসুবিধা কারণ বিনামূল্যে পাঠ্য তৈরি করা LLM-এর অন্যতম গুরুত্বপূর্ণ বৈশিষ্ট্য।

সম্প্রদায়ের মধ্যে একটি ঐকমত্য রয়েছে বলে মনে হচ্ছে যে মডেলটিকে সঠিকভাবে মূল্যায়ন করার জন্য আমাদের মানবিক মূল্যায়ন প্রয়োজন। এটি সাধারণত বিভিন্ন মডেলের প্রতিক্রিয়া তুলনা করে করা হয়।

এলএলএম মূল্যায়ন করার একটি ভাল উপায়
LMSYS প্রকল্পে দুটি প্রম্পট সমাপ্তির তুলনা - লেখকের স্ক্রিনশট

টীকাকাররা সিদ্ধান্ত নেয় কোন প্রতিক্রিয়াটি ভাল, যেমনটি উপরের উদাহরণে দেখা গেছে, এবং কখনও কখনও প্রম্পট সমাপ্তির মানের পার্থক্য পরিমাপ করে। LMSYS Org তৈরি করেছে একটি লিডারবোর্ডে যেটি এই ধরনের মানবিক মূল্যায়ন ব্যবহার করে এবং 17টি ভিন্ন মডেলের তুলনা করে, প্রতিবেদন করে ইলো রেটিং প্রতিটি মডেলের জন্য।

যেহেতু মানুষের মূল্যায়ন স্কেল করা কঠিন হতে পারে, তাই মূল্যায়ন প্রক্রিয়াকে স্কেল এবং গতি বাড়ানোর চেষ্টা করা হয়েছে এবং এর ফলে একটি আকর্ষণীয় প্রকল্পের নাম হয়েছে আলপাকাইভাল. এখানে প্রতিটি মডেলকে একটি বেসলাইনের সাথে তুলনা করা হয়েছে (টেক্সট-ডেভিন্সি-003 GPT-4 দ্বারা প্রদত্ত) এবং মানুষের মূল্যায়নকে GPT-4 রায় দিয়ে প্রতিস্থাপিত করা হয়েছে। এটি সত্যিই দ্রুত এবং মাপযোগ্য কিন্তু আমরা কি এখানে স্কোরিং করার জন্য মডেলটিকে বিশ্বাস করতে পারি? আমাদের মডেল পক্ষপাত সম্পর্কে সচেতন হতে হবে। প্রকল্পটি আসলে দেখিয়েছে যে GPT-4 দীর্ঘ উত্তরের পক্ষে হতে পারে।

এলএলএম মূল্যায়ন পদ্ধতিগুলি ক্রমাগত বিকশিত হচ্ছে কারণ এআই সম্প্রদায় সহজ, ন্যায্য এবং মাপযোগ্য পদ্ধতির জন্য অনুসন্ধান করছে। Toloka এ দল থেকে সর্বশেষ উন্নয়ন একটি নতুন নিয়ে আসে লিডারবোর্ডে বর্তমান মূল্যায়ন মান আরও অগ্রসর করতে।

নতুন লিডারবোর্ডে বাস্তব-বিশ্ব ব্যবহারকারী প্রম্পটগুলির সাথে মডেল প্রতিক্রিয়াগুলির তুলনা করে যেগুলি উপযোগী এনএলপি কার্য দ্বারা শ্রেণীবদ্ধ করা হয় এই InstructGPT কাগজ. এটি সমস্ত বিভাগ জুড়ে প্রতিটি মডেলের সামগ্রিক জয়ের হারও দেখায়।

এলএলএম মূল্যায়ন করার একটি ভাল উপায়
Toloka লিডারবোর্ড – লেখক দ্বারা স্ক্রিনশট

এই প্রকল্পের জন্য ব্যবহৃত মূল্যায়ন AlpacaEval-এ সম্পাদিত একের অনুরূপ। লিডারবোর্ডের স্কোরগুলি এর তুলনায় সংশ্লিষ্ট মডেলের জয়ের হারকে উপস্থাপন করে গুয়ানাকো 13 বি মডেল, যা এখানে একটি বেসলাইন তুলনা হিসাবে কাজ করে। Guanaco 13B-এর পছন্দ হল AlpacaEval পদ্ধতির একটি উন্নতি, যা বেসলাইন হিসাবে শীঘ্রই পুরনো হয়ে যাওয়া টেক্সট-ডেভিন্সি-003 মডেল ব্যবহার করে।

প্রকৃত মূল্যায়ন বাস্তব-বিশ্বের প্রম্পটের সেটে মানব বিশেষজ্ঞ টীকাকারদের দ্বারা করা হয়। প্রতিটি প্রম্পটের জন্য, টীকাকারকে দুটি পূর্ণতা দেওয়া হয় এবং জিজ্ঞাসা করা হয় যে তারা কোনটি পছন্দ করে। আপনি পদ্ধতি সম্পর্কে বিস্তারিত জানতে পারেন এখানে.

এই ধরনের মানব মূল্যায়ন অন্য যেকোনো স্বয়ংক্রিয় মূল্যায়ন পদ্ধতির চেয়ে বেশি কার্যকর এবং এর জন্য ব্যবহৃত মানবিক মূল্যায়নে উন্নতি করা উচিত। LMSYS লিডারবোর্ড। LMSYS পদ্ধতির খারাপ দিক হল যে কেউ এর সাথে লিংক এই পদ্ধতিতে সংগৃহীত ডেটার গুণমান সম্পর্কে গুরুতর প্রশ্ন উত্থাপন করে মূল্যায়নে অংশ নিতে পারে। বিশেষজ্ঞ টীকাকারদের একটি বদ্ধ ভিড়ে নির্ভরযোগ্য ফলাফলের জন্য আরও ভাল সম্ভাবনা রয়েছে এবং Toloka ডেটার গুণমান নিশ্চিত করতে অতিরিক্ত মান নিয়ন্ত্রণ কৌশল প্রয়োগ করে।

এই নিবন্ধে, আমরা LLM-এর মূল্যায়নের জন্য একটি প্রতিশ্রুতিশীল নতুন সমাধান নিয়ে এসেছি — Toloka লিডারবোর্ড। পদ্ধতিটি উদ্ভাবনী, বিদ্যমান পদ্ধতিগুলির শক্তিকে একত্রিত করে, টাস্ক-নির্দিষ্ট গ্রানুলারিটি যোগ করে এবং মডেলগুলির তুলনা করার জন্য নির্ভরযোগ্য মানব টীকা কৌশল ব্যবহার করে।

বোর্ড অন্বেষণ, এবং আমাদের সাথে উন্নতির জন্য আপনার মতামত এবং পরামর্শ শেয়ার করুন.

ম্যাগডালেনা কনকিউইচ Toloka-এর একজন ডেটা ইভাঞ্জেলিস্ট, একটি বিশ্বব্যাপী কোম্পানি যা দ্রুত এবং মাপযোগ্য AI উন্নয়নকে সমর্থন করে। তিনি এডিনবার্গ ইউনিভার্সিটি থেকে কৃত্রিম বুদ্ধিমত্তায় স্নাতকোত্তর ডিগ্রি অর্জন করেছেন এবং ইউরোপ ও আমেরিকায় ব্যবসার জন্য একজন NLP ইঞ্জিনিয়ার, ডেভেলপার এবং ডেটা সায়েন্টিস্ট হিসেবে কাজ করেছেন। তিনি ডেটা সায়েন্টিস্টদের শিক্ষাদান ও পরামর্শদানের সাথে জড়িত ছিলেন এবং নিয়মিত ডেটা সায়েন্স এবং মেশিন লার্নিং প্রকাশনায় অবদান রাখেন।