লেখক থেকে ছবি | বিং ইমেজ স্রষ্টা
ডলি 2.0 একটি ওপেন-সোর্স, নির্দেশ-অনুসরণ করা, বড় ভাষা মডেল (LLM) যা মানব-উত্পাদিত ডেটাসেটে সূক্ষ্ম-টিউন করা হয়েছে। এটি গবেষণা এবং বাণিজ্যিক উদ্দেশ্যে উভয়ই ব্যবহার করা যেতে পারে।
চিত্র থেকে RamAnanth1 দ্বারা আলিঙ্গন ফেস স্পেস
পূর্বে, Databricks দল মুক্তি ডলি 1.0, LLM, যা ChatGPT-এর মতো নির্দেশাবলী প্রদর্শন করে এবং প্রশিক্ষণের জন্য $30-এর কম খরচ করে। এটি স্ট্যানফোর্ড আলপাকা দলের ডেটাসেট ব্যবহার করছিল, যা একটি সীমাবদ্ধ লাইসেন্সের অধীনে ছিল (শুধুমাত্র গবেষণা)।
ডলি 2.0 12B প্যারামিটার ভাষা মডেলকে ফাইন-টিউনিং করে এই সমস্যাটির সমাধান করেছে (পাইথিয়া) নিম্নলিখিত ডেটাসেটে একটি উচ্চ-মানের মানব-উত্পাদিত নির্দেশে, যা একজন Datbricks কর্মচারী দ্বারা লেবেল করা হয়েছিল। মডেল এবং ডেটাসেট উভয়ই বাণিজ্যিক ব্যবহারের জন্য উপলব্ধ।
ডলি 1.0 একটি স্ট্যানফোর্ড আলপাকা ডেটাসেটে প্রশিক্ষিত ছিল, যা OpenAI API ব্যবহার করে তৈরি করা হয়েছিল। ডেটাসেট ChatGPT থেকে আউটপুট ধারণ করে এবং OpenAI এর সাথে প্রতিদ্বন্দ্বিতা করার জন্য এটি ব্যবহার করতে কাউকে বাধা দেয়। সংক্ষেপে, আপনি এই ডেটাসেটের উপর ভিত্তি করে একটি বাণিজ্যিক চ্যাটবট বা ভাষা অ্যাপ্লিকেশন তৈরি করতে পারবেন না।
গত কয়েক সপ্তাহে প্রকাশিত সাম্প্রতিকতম মডেলগুলির বেশিরভাগই একই সমস্যায় ভুগছে, যেমন মডেলগুলি আলপাকা, কোয়ালা, GPT4 All, এবং ভিকুনা. ঘুরে বেড়ানোর জন্য, আমাদের নতুন উচ্চ-মানের ডেটাসেট তৈরি করতে হবে যা বাণিজ্যিক ব্যবহারের জন্য ব্যবহার করা যেতে পারে, এবং Databricks টিম ডেটাব্রিক্স-ডলি-15k ডেটাসেটের সাথে এটি করেছে।
নতুন ডেটাসেটে 15,000টি উচ্চ-মানের মানব-লেবেলযুক্ত প্রম্পট/প্রতিক্রিয়া জোড়া রয়েছে যা বৃহৎ ভাষার মডেলের নির্দেশনা টিউন করতে ব্যবহার করা যেতে পারে। দ্য databricks-dolly-15k ডেটাসেট সঙ্গে আসে ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন-শেয়ারঅ্যালাইক 3.0 আনপোর্টেড লাইসেন্স, যা যে কেউ এটি ব্যবহার করতে, এটি সংশোধন করতে এবং এটিতে একটি বাণিজ্যিক অ্যাপ্লিকেশন তৈরি করতে দেয়৷
তারা কীভাবে ডেটাব্রিক্স-ডলি-15 কে ডেটাসেট তৈরি করেছিল?
ওপেনএআই গবেষণা কাগজ বলে যে মূল InstructGPT মডেলটি 13,000টি প্রম্পট এবং প্রতিক্রিয়াগুলির উপর প্রশিক্ষিত হয়েছিল৷ এই তথ্য ব্যবহার করে, Databricks টিম এটিতে কাজ শুরু করে এবং দেখা যাচ্ছে যে 13k প্রশ্ন ও উত্তর তৈরি করা একটি কঠিন কাজ ছিল। তারা সিন্থেটিক ডেটা বা এআই জেনারেটিভ ডেটা ব্যবহার করতে পারে না এবং তাদের প্রতিটি প্রশ্নের আসল উত্তর তৈরি করতে হবে। এখানেই তারা ডাটাব্রিক্সের 5,000 কর্মীকে মানব-উত্পাদিত ডেটা তৈরি করতে ব্যবহার করার সিদ্ধান্ত নিয়েছে।
Databricks একটি প্রতিযোগিতা স্থাপন করেছে, যেখানে শীর্ষ 20 জন লেবেলার একটি বড় পুরস্কার পাবে। এই প্রতিযোগিতায়, 5,000 ডাটাব্রিক্স কর্মচারী অংশগ্রহণ করেছিল যারা এলএলএম-এর প্রতি খুব আগ্রহী ছিল
dolly-v2-12b একটি অত্যাধুনিক মডেল নয়। এটি কিছু মূল্যায়ন বেঞ্চমার্কে dolly-v1-6b এর কম পারফর্ম করে। এটি অন্তর্নিহিত ফাইন-টিউনিং ডেটাসেটের গঠন এবং আকারের কারণে হতে পারে। ডলি মডেল পরিবারটি সক্রিয় বিকাশের অধীনে রয়েছে, তাই আপনি ভবিষ্যতে আরও ভাল পারফরম্যান্স সহ একটি আপডেট সংস্করণ দেখতে পাবেন।
সংক্ষেপে, ডলি-v2-12b মডেলটি EleutherAI/gpt-neox-20b এবং EleutherAI/pythia-6.9b-এর চেয়ে ভালো পারফর্ম করেছে।
চিত্র থেকে ফ্রি ডলি
ডলি 2.0 হল 100% ওপেন সোর্স। এটি প্রশিক্ষণ কোড, ডেটাসেট, মডেল ওজন এবং অনুমান পাইপলাইনের সাথে আসে। সমস্ত উপাদান বাণিজ্যিক ব্যবহারের জন্য উপযুক্ত। আপনি Hugging Face Spaces এ মডেলটি ব্যবহার করে দেখতে পারেন RamAnanth2 দ্বারা ডলি V1.
চিত্র থেকে আলিঙ্গন মুখ
রিসোর্স:
ডলি 2.0 ডেমো: RamAnanth2 দ্বারা ডলি V1
আবিদ আলী আওয়ান (@1 আবিদালিয়াওয়ান) একজন প্রত্যয়িত ডেটা সায়েন্টিস্ট পেশাদার যিনি মেশিন লার্নিং মডেল তৈরি করতে পছন্দ করেন। বর্তমানে, তিনি মেশিন লার্নিং এবং ডেটা সায়েন্স টেকনোলজিতে বিষয়বস্তু তৈরি এবং প্রযুক্তিগত ব্লগ লেখার উপর মনোযোগ নিবদ্ধ করছেন। আবিদ টেকনোলজি ম্যানেজমেন্টে স্নাতকোত্তর ডিগ্রি এবং টেলিকমিউনিকেশন ইঞ্জিনিয়ারিংয়ে স্নাতক ডিগ্রি অর্জন করেছেন। তার দৃষ্টিভঙ্গি মানসিক অসুস্থতার সাথে সংগ্রামরত শিক্ষার্থীদের জন্য একটি গ্রাফ নিউরাল নেটওয়ার্ক ব্যবহার করে একটি AI পণ্য তৈরি করা।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- অ্যাড্রিয়েন অ্যাশলির সাথে ভবিষ্যত মিন্টিং। এখানে প্রবেশ করুন.
- উত্স: https://www.kdnuggets.com/2023/04/dolly-20-chatgpt-open-source-alternative-commercial.html?utm_source=rss&utm_medium=rss&utm_campaign=dolly-2-0-chatgpt-open-source-alternative-for-commercial-use
- : আছে
- : হয়
- :না
- $ ইউপি
- 000
- 1
- 20
- a
- ক্ষমতা
- সক্রিয়
- AI
- সব
- অনুমতি
- বিকল্প
- an
- এবং
- উত্তর
- যে কেউ
- API
- আবেদন
- রয়েছি
- কাছাকাছি
- লেখক
- সহজলভ্য
- পুরস্কার
- ভিত্তি
- BE
- benchmarks
- বার্কলে
- উত্তম
- বিশাল
- ঠন্ঠন্
- ব্লগ
- উভয়
- নির্মাণ করা
- ভবন
- by
- CAN
- না পারেন
- প্রত্যয়িত
- chatbot
- চ্যাটজিপিটি
- কোড
- ব্যবসায়িক
- জনসাধারণ
- প্রতিদ্বন্দ্বিতা করা
- উপাদান
- ধারণ
- বিষয়বস্তু
- বিষয়বস্তু-সৃষ্টি
- প্রতিযোগিতা
- খরচ
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- এখন
- উপাত্ত
- তথ্য বিজ্ঞান
- তথ্য বিজ্ঞানী
- ডেটাব্রিক্স
- ডেটাসেট
- সিদ্ধান্ত নিয়েছে
- ডিগ্রী
- ডেমো
- নকশা
- উন্নয়ন
- DID
- কঠিন
- ক্ষুদ্র পুতুলের মত
- কর্মচারী
- কর্মচারী
- প্রকৌশল
- মূল্যায়ন
- প্রতি
- চিত্র প্রদর্শনীতেও
- মুখ
- পরিবার
- কয়েক
- মনোযোগ
- অনুসরণ
- জন্য
- থেকে
- ভবিষ্যৎ
- উত্পাদন করা
- উৎপাদিত
- সৃজক
- পাওয়া
- চিত্রলেখ
- গ্রাফ নিউরাল নেটওয়ার্ক
- আছে
- he
- উচ্চ গুনসম্পন্ন
- ঝুলিতে
- এইচটিএমএল
- HTTPS দ্বারা
- অসুস্থতা
- ভাবমূর্তি
- in
- তথ্য
- আগ্রহী
- সমস্যা
- সমস্যা
- IT
- JPG
- কেডনুগেটস
- ভাষা
- বড়
- গত
- সর্বশেষ
- শিক্ষা
- লাইসেন্স
- মত
- মেশিন
- মেশিন লার্নিং
- ব্যবস্থাপনা
- মালিক
- মানসিক
- মানসিক অসুখ
- হতে পারে
- মডেল
- মডেল
- পরিবর্তন
- প্রয়োজন
- নেটওয়ার্ক
- নিউরাল
- স্নায়বিক নেটওয়ার্ক
- নতুন
- of
- on
- কেবল
- খোলা
- ওপেন সোর্স
- OpenAI
- or
- মূল
- আউটপুট
- জোড়া
- স্থিতিমাপ
- অংশগ্রহণ
- পিডিএফ
- কর্মক্ষমতা
- পাইপলাইন
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- পণ্য
- পেশাদারী
- উদ্দেশ্য
- প্রশ্ন
- প্রশ্ন
- মুক্ত
- গবেষণা
- স্থিরপ্রতিজ্ঞ
- সীমাবদ্ধ
- s
- একই
- বিজ্ঞান
- বিজ্ঞানী
- সেট
- সংক্ষিপ্ত
- আয়তন
- So
- কিছু
- উৎস
- স্থান
- শূণ্যস্থান
- স্ট্যানফোর্ড
- শুরু
- রাষ্ট্র-এর-শিল্প
- যুক্তরাষ্ট্র
- সংগ্রাম
- শিক্ষার্থীরা
- উপযুক্ত
- কৃত্রিম
- সিনথেটিক ডেটা
- কার্য
- টীম
- কারিগরী
- প্রযুক্তি
- প্রযুক্তিঃ
- টেলিযোগাযোগ
- চেয়ে
- যে
- সার্জারির
- ভবিষ্যৎ
- তারা
- এই
- থেকে
- শীর্ষ
- রেলগাড়ি
- প্রশিক্ষিত
- প্রশিক্ষণ
- অধীনে
- নিম্নাবস্থিত
- আপডেট
- ব্যবহার
- ব্যবহৃত
- ব্যবহার
- সংস্করণ
- দৃষ্টি
- ছিল
- we
- সপ্তাহ
- ছিল
- কি
- যে
- হু
- সঙ্গে
- হয়া যাই ?
- would
- লেখা
- আপনি
- zephyrnet