এলএলএম-এর বিকাশে সাম্প্রতিক অগ্রগতিগুলি বিভিন্ন এনএলপি কাজের জন্য তাদের ব্যবহার জনপ্রিয় করেছে যা পূর্বে পুরানো মেশিন লার্নিং পদ্ধতি ব্যবহার করে মোকাবেলা করা হয়েছিল। বৃহৎ ভাষার মডেলগুলি বিভিন্ন ভাষার সমস্যা যেমন শ্রেণীবিন্যাস, সংক্ষিপ্তকরণ, তথ্য পুনরুদ্ধার, বিষয়বস্তু তৈরি, প্রশ্নের উত্তর এবং একটি কথোপকথন বজায় রাখতে সক্ষম - সবই শুধুমাত্র একটি একক মডেল ব্যবহার করে। কিন্তু আমরা কিভাবে জানি যে তারা এই সমস্ত বিভিন্ন কাজের উপর একটি ভাল কাজ করছে?
এলএলএম-এর উত্থান একটি অমীমাংসিত সমস্যাকে আলোকিত করেছে: তাদের মূল্যায়ন করার জন্য আমাদের কাছে একটি নির্ভরযোগ্য মান নেই। যা মূল্যায়নকে আরও কঠিন করে তোলে তা হল যে এগুলি অত্যন্ত বৈচিত্র্যময় কাজের জন্য ব্যবহার করা হয় এবং প্রতিটি ব্যবহারের ক্ষেত্রে কী একটি ভাল উত্তর তা আমাদের কাছে স্পষ্ট সংজ্ঞা নেই।
এই নিবন্ধটি LLM মূল্যায়নের বর্তমান পন্থাগুলি নিয়ে আলোচনা করে এবং একটি নতুন LLM লিডারবোর্ড প্রবর্তন করে যা মানব মূল্যায়নের সুবিধা দেয় যা বিদ্যমান মূল্যায়ন কৌশলগুলির উপর উন্নতি করে।
মূল্যায়নের প্রথম এবং স্বাভাবিক প্রাথমিক রূপ হল মডেলটিকে বেশ কয়েকটি কিউরেটেড ডেটাসেটে চালানো এবং এর কার্যকারিতা পরীক্ষা করা। HuggingFace একটি তৈরি করেছে এলএলএম লিডারবোর্ড খুলুন যেখানে ওপেন-অ্যাক্সেস বড় মডেলগুলি চারটি সুপরিচিত ডেটাসেট ব্যবহার করে মূল্যায়ন করা হয় (AI2 রিজনিং চ্যালেঞ্জ , HellaSwag , MMLU , TruthfulQA) এটি স্বয়ংক্রিয় মূল্যায়নের সাথে সঙ্গতিপূর্ণ এবং কিছু নির্দিষ্ট প্রশ্নের জন্য তথ্য পাওয়ার মডেলের ক্ষমতা পরীক্ষা করে।
এটি থেকে একটি প্রশ্নের একটি উদাহরণ MMLU ডেটাসেট
বিষয়: কলেজ_মেডিসিন
প্রশ্ন: ক্রিয়েটাইন সাপ্লিমেন্টেশনের একটি প্রত্যাশিত পার্শ্ব প্রতিক্রিয়া হল।
- ক) পেশী দুর্বলতা
- খ) শরীরের ভর বৃদ্ধি
- গ) পেশী ক্র্যাম্প
- ঘ) ইলেক্ট্রোলাইটের ক্ষতি
উত্তর: (খ)
এই ধরনের প্রশ্নের উত্তর দেওয়ার জন্য মডেলকে স্কোর করা একটি গুরুত্বপূর্ণ মেট্রিক এবং এটি সত্য-নিরীক্ষার জন্য ভাল কাজ করে কিন্তু এটি মডেলের উৎপাদন ক্ষমতা পরীক্ষা করে না। এটি সম্ভবত এই মূল্যায়ন পদ্ধতির সবচেয়ে বড় অসুবিধা কারণ বিনামূল্যে পাঠ্য তৈরি করা LLM-এর অন্যতম গুরুত্বপূর্ণ বৈশিষ্ট্য।
সম্প্রদায়ের মধ্যে একটি ঐকমত্য রয়েছে বলে মনে হচ্ছে যে মডেলটিকে সঠিকভাবে মূল্যায়ন করার জন্য আমাদের মানবিক মূল্যায়ন প্রয়োজন। এটি সাধারণত বিভিন্ন মডেলের প্রতিক্রিয়া তুলনা করে করা হয়।
LMSYS প্রকল্পে দুটি প্রম্পট সমাপ্তির তুলনা - লেখকের স্ক্রিনশট
টীকাকাররা সিদ্ধান্ত নেয় কোন প্রতিক্রিয়াটি ভাল, যেমনটি উপরের উদাহরণে দেখা গেছে, এবং কখনও কখনও প্রম্পট সমাপ্তির মানের পার্থক্য পরিমাপ করে। LMSYS Org তৈরি করেছে একটি লিডারবোর্ডে যেটি এই ধরনের মানবিক মূল্যায়ন ব্যবহার করে এবং 17টি ভিন্ন মডেলের তুলনা করে, প্রতিবেদন করে ইলো রেটিং প্রতিটি মডেলের জন্য।
যেহেতু মানুষের মূল্যায়ন স্কেল করা কঠিন হতে পারে, তাই মূল্যায়ন প্রক্রিয়াকে স্কেল এবং গতি বাড়ানোর চেষ্টা করা হয়েছে এবং এর ফলে একটি আকর্ষণীয় প্রকল্পের নাম হয়েছে আলপাকাইভাল. এখানে প্রতিটি মডেলকে একটি বেসলাইনের সাথে তুলনা করা হয়েছে (টেক্সট-ডেভিন্সি-003 GPT-4 দ্বারা প্রদত্ত) এবং মানুষের মূল্যায়নকে GPT-4 রায় দিয়ে প্রতিস্থাপিত করা হয়েছে। এটি সত্যিই দ্রুত এবং মাপযোগ্য কিন্তু আমরা কি এখানে স্কোরিং করার জন্য মডেলটিকে বিশ্বাস করতে পারি? আমাদের মডেল পক্ষপাত সম্পর্কে সচেতন হতে হবে। প্রকল্পটি আসলে দেখিয়েছে যে GPT-4 দীর্ঘ উত্তরের পক্ষে হতে পারে।
এলএলএম মূল্যায়ন পদ্ধতিগুলি ক্রমাগত বিকশিত হচ্ছে কারণ এআই সম্প্রদায় সহজ, ন্যায্য এবং মাপযোগ্য পদ্ধতির জন্য অনুসন্ধান করছে। Toloka এ দল থেকে সর্বশেষ উন্নয়ন একটি নতুন নিয়ে আসে লিডারবোর্ডে বর্তমান মূল্যায়ন মান আরও অগ্রসর করতে।
নতুন লিডারবোর্ডে বাস্তব-বিশ্ব ব্যবহারকারী প্রম্পটগুলির সাথে মডেল প্রতিক্রিয়াগুলির তুলনা করে যেগুলি উপযোগী এনএলপি কার্য দ্বারা শ্রেণীবদ্ধ করা হয় এই InstructGPT কাগজ. এটি সমস্ত বিভাগ জুড়ে প্রতিটি মডেলের সামগ্রিক জয়ের হারও দেখায়।
Toloka লিডারবোর্ড – লেখক দ্বারা স্ক্রিনশট
এই প্রকল্পের জন্য ব্যবহৃত মূল্যায়ন AlpacaEval-এ সম্পাদিত একের অনুরূপ। লিডারবোর্ডের স্কোরগুলি এর তুলনায় সংশ্লিষ্ট মডেলের জয়ের হারকে উপস্থাপন করে গুয়ানাকো 13 বি মডেল, যা এখানে একটি বেসলাইন তুলনা হিসাবে কাজ করে। Guanaco 13B-এর পছন্দ হল AlpacaEval পদ্ধতির একটি উন্নতি, যা বেসলাইন হিসাবে শীঘ্রই পুরনো হয়ে যাওয়া টেক্সট-ডেভিন্সি-003 মডেল ব্যবহার করে।
প্রকৃত মূল্যায়ন বাস্তব-বিশ্বের প্রম্পটের সেটে মানব বিশেষজ্ঞ টীকাকারদের দ্বারা করা হয়। প্রতিটি প্রম্পটের জন্য, টীকাকারকে দুটি পূর্ণতা দেওয়া হয় এবং জিজ্ঞাসা করা হয় যে তারা কোনটি পছন্দ করে। আপনি পদ্ধতি সম্পর্কে বিস্তারিত জানতে পারেন এখানে.
এই ধরনের মানব মূল্যায়ন অন্য যেকোনো স্বয়ংক্রিয় মূল্যায়ন পদ্ধতির চেয়ে বেশি কার্যকর এবং এর জন্য ব্যবহৃত মানবিক মূল্যায়নে উন্নতি করা উচিত। LMSYS লিডারবোর্ড। LMSYS পদ্ধতির খারাপ দিক হল যে কেউ এর সাথে লিংক এই পদ্ধতিতে সংগৃহীত ডেটার গুণমান সম্পর্কে গুরুতর প্রশ্ন উত্থাপন করে মূল্যায়নে অংশ নিতে পারে। বিশেষজ্ঞ টীকাকারদের একটি বদ্ধ ভিড়ে নির্ভরযোগ্য ফলাফলের জন্য আরও ভাল সম্ভাবনা রয়েছে এবং Toloka ডেটার গুণমান নিশ্চিত করতে অতিরিক্ত মান নিয়ন্ত্রণ কৌশল প্রয়োগ করে।
এই নিবন্ধে, আমরা LLM-এর মূল্যায়নের জন্য একটি প্রতিশ্রুতিশীল নতুন সমাধান নিয়ে এসেছি — Toloka লিডারবোর্ড। পদ্ধতিটি উদ্ভাবনী, বিদ্যমান পদ্ধতিগুলির শক্তিকে একত্রিত করে, টাস্ক-নির্দিষ্ট গ্রানুলারিটি যোগ করে এবং মডেলগুলির তুলনা করার জন্য নির্ভরযোগ্য মানব টীকা কৌশল ব্যবহার করে।
বোর্ড অন্বেষণ, এবং আমাদের সাথে উন্নতির জন্য আপনার মতামত এবং পরামর্শ শেয়ার করুন.
ম্যাগডালেনা কনকিউইচ Toloka-এর একজন ডেটা ইভাঞ্জেলিস্ট, একটি বিশ্বব্যাপী কোম্পানি যা দ্রুত এবং মাপযোগ্য AI উন্নয়নকে সমর্থন করে। তিনি এডিনবার্গ ইউনিভার্সিটি থেকে কৃত্রিম বুদ্ধিমত্তায় স্নাতকোত্তর ডিগ্রি অর্জন করেছেন এবং ইউরোপ ও আমেরিকায় ব্যবসার জন্য একজন NLP ইঞ্জিনিয়ার, ডেভেলপার এবং ডেটা সায়েন্টিস্ট হিসেবে কাজ করেছেন। তিনি ডেটা সায়েন্টিস্টদের শিক্ষাদান ও পরামর্শদানের সাথে জড়িত ছিলেন এবং নিয়মিত ডেটা সায়েন্স এবং মেশিন লার্নিং প্রকাশনায় অবদান রাখেন।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- উত্স: https://www.kdnuggets.com/a-better-way-to-evaluate-llms?utm_source=rss&utm_medium=rss&utm_campaign=a-better-way-to-evaluate-llms
- : আছে
- : হয়
- :না
- :কোথায়
- $ ইউপি
- 17
- a
- ক্ষমতা
- সম্পর্কে
- উপরে
- দিয়ে
- আসল
- প্রকৃতপক্ষে
- অতিরিক্ত
- যোগ করে
- আগাম
- অগ্রগতি
- AI
- সব
- এছাড়াও
- আমেরিকা
- an
- এবং
- উত্তর
- উত্তর
- কোন
- প্রযোজ্য
- অভিগমন
- পন্থা
- রয়েছি
- রঙ্গভূমি
- প্রবন্ধ
- কৃত্রিম
- কৃত্রিম বুদ্ধিমত্তা
- AS
- At
- স্বয়ংক্রিয়
- সচেতন
- b
- বেসলাইন
- BE
- কারণ
- হয়েছে
- উত্তম
- গোঁড়ামির
- বৃহত্তম
- তক্তা
- শরীর
- আনীত
- ব্যবসা
- কিন্তু
- by
- CAN
- সক্ষম
- কেস
- বিভাগ
- চ্যালেঞ্জ
- চেক
- পছন্দ
- শ্রেণীবিন্যাস
- পরিষ্কার
- বন্ধ
- সম্মিলন
- আসে
- সম্প্রদায়
- কোম্পানি
- তুলনা করা
- তুলনা
- তুলনা
- তুলনা
- ঐক্য
- বিষয়বস্তু
- বিষয়বস্তু-সৃষ্টি
- অব্যাহত
- অবদান
- নিয়ন্ত্রণ
- কথোপকথন
- অনুরূপ
- নির্মিত
- সৃষ্টি
- ভিড়
- প্লেলিস্টে যোগ করা
- বর্তমান
- উপাত্ত
- উপাত্ত গুণমান
- তথ্য বিজ্ঞান
- তথ্য বিজ্ঞানী
- ডেটাসেট
- সিদ্ধান্ত নেন
- সংজ্ঞা
- ডিগ্রী
- বিস্তারিত
- বিকাশকারী
- উন্নয়ন
- পার্থক্য
- বিভিন্ন
- অসুবিধা
- বিচিত্র
- do
- না
- করছেন
- সম্পন্ন
- Dont
- downside হয়
- প্রতি
- সহজ
- এডিনবরা
- প্রভাব
- প্রচেষ্টা
- ইলেক্ট্রোলাইট
- প্রকৌশলী
- নিশ্চিত করা
- ইউরোপ
- মূল্যায়ন
- মূল্যায়ন
- মূল্যায়নের
- মূল্যায়ন
- ধর্মপ্রচারক
- গজান
- পরীক্ষক
- উদাহরণ
- বিদ্যমান
- প্রত্যাশিত
- ক্যান্সার
- তথ্য
- ন্যায্য
- দ্রুত
- আনুকূল্য
- বৈশিষ্ট্য
- আবিষ্কার
- প্রথম
- জন্য
- ফর্ম
- চার
- বিনামূল্যে
- থেকে
- অধিকতর
- লাভ করা
- একত্রিত
- উৎপাদিত
- সৃজক
- পাওয়া
- GitHub
- প্রদত্ত
- বিশ্বব্যাপী
- ভাল
- ভাল করেছ
- কঠিন
- কঠিনতর
- আছে
- এখানে
- অত্যন্ত
- ঝুলিতে
- কিভাবে
- HTTPS দ্বারা
- জড়িয়ে আছে
- মানবীয়
- গুরুত্বপূর্ণ
- উন্নত করা
- উন্নতি
- উন্নতি
- উন্নত
- in
- তথ্য
- প্রারম্ভিক
- উদ্ভাবনী
- বুদ্ধিমত্তা
- মজাদার
- উপস্থাপিত
- পরিচয় করিয়ে দেয়
- জড়িত
- IT
- এর
- কাজ
- মাত্র
- শুধু একটি
- কেডনুগেটস
- জানা
- রং
- ভাষা
- বড়
- সর্বশেষ
- শিক্ষা
- উপজীব্য
- আলো
- আর
- ক্ষতি
- মেশিন
- মেশিন লার্নিং
- বজায় রাখার
- তৈরি করে
- পদ্ধতি
- ভর
- মালিক
- মে..
- মেন্টরিং
- পদ্ধতি
- প্রণালী বিজ্ঞান
- পদ্ধতি
- ছন্দোময়
- মডেল
- মডেল
- অধিক
- সেতু
- পেশী
- প্রয়োজন
- নতুন
- নতুন সমাধান
- NLP
- of
- পুরোনো
- on
- ONE
- খোলা
- মতামত
- অন্যান্য
- রূপরেখা
- সামগ্রিক
- অংশ
- সম্পাদন করা
- কর্মক্ষমতা
- সম্পাদিত
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- সম্ভাব্য
- পছন্দ করা
- পূর্বে
- সম্ভবত
- সমস্যা
- সমস্যা
- প্রক্রিয়া
- প্রকল্প
- আশাপ্রদ
- অনুরোধ জানানো
- সঠিকভাবে
- প্রদত্ত
- প্রকাশনা
- গুণ
- প্রশ্ন
- প্রশ্ন
- উত্থাপন
- হার
- বাস্তব জগতে
- নিয়মিতভাবে
- বিশ্বাসযোগ্য
- প্রতিস্থাপিত
- প্রতিবেদন
- চিত্রিত করা
- নিজ নিজ
- প্রতিক্রিয়া
- প্রতিক্রিয়া
- প্রসূত
- ফলাফল
- ওঠা
- চালান
- s
- মাপযোগ্য
- স্কেল
- বিজ্ঞান
- বিজ্ঞানী
- বিজ্ঞানীরা
- স্কোর
- স্কোরিং
- অনুসন্ধান
- মনে হয়
- দেখা
- গম্ভীর
- স্থল
- সেট
- বিভিন্ন
- শেয়ার
- সে
- উচিত
- প্রদর্শিত
- শো
- পাশ
- অনুরূপ
- একক
- সমাধান
- সমাধানে
- কিছু
- কখনও কখনও
- নির্দিষ্ট
- স্পীড
- মান
- মান
- শক্তি
- এমন
- সমর্থক
- গ্রহণ করা
- কাজ
- শিক্ষাদান
- টীম
- প্রযুক্তি
- পরীক্ষা
- পাঠ
- চেয়ে
- যে
- সার্জারির
- তাদের
- তাহাদিগকে
- সেখানে।
- এইগুলো
- তারা
- এই
- থেকে
- আস্থা
- দুই
- আদর্শ
- সাধারণত
- বিশ্ববিদ্যালয়
- উপরে
- us
- ব্যবহার
- ব্যবহার
- ব্যবহার ক্ষেত্রে
- ব্যবহৃত
- ব্যবহারকারী
- ব্যবহারসমূহ
- ব্যবহার
- চলিত
- বৈচিত্র্য
- উপায়..
- we
- দুর্বলতা
- আমরা একটি
- সুপরিচিত
- ছিল
- কি
- যে
- জয়
- সঙ্গে
- মধ্যে
- কাজ করছে
- আপনি
- আপনার
- zephyrnet