বিগত 15 মাসে প্রতিফলিত করে, জনসাধারণের কাছে ChatGPT প্রবর্তন এবং উপলব্ধতার পরে জেনারেটিভ AI এবং বড় ভাষা মডেলগুলিতে (LLMs) যে অগ্রগতি হয়েছে তা শিরোনামে প্রাধান্য পেয়েছে।
এই অগ্রগতির বিল্ডিং ব্লক ছিল ট্রান্সফরমার মডেল আর্কিটেকচার যা Google গবেষকদের একটি দল দ্বারা "শিরোনামের একটি গবেষণাপত্রে বর্ণিত হয়েছেমনোযোগ আপনার প্রয়োজন সব" শিরোনাম থেকে বোঝা যায়, সমস্ত ট্রান্সফরমার মডেলের একটি মূল বৈশিষ্ট্য হল মনোযোগের প্রক্রিয়া, কাগজে নিম্নরূপ সংজ্ঞায়িত করা হয়েছে:
"একটি মনোযোগ ফাংশন একটি আউটপুটে একটি কোয়েরি এবং কী-মানের জোড়ার একটি সেট ম্যাপিং হিসাবে বর্ণনা করা যেতে পারে, যেখানে ক্যোয়ারী, কী, মান এবং আউটপুট সব ভেক্টর। আউটপুটটি মানগুলির একটি ওজনযুক্ত যোগফল হিসাবে গণনা করা হয়, যেখানে প্রতিটি মানের জন্য নির্ধারিত ওজন সংশ্লিষ্ট কী সহ ক্যোয়ারীটির একটি সামঞ্জস্যতা ফাংশন দ্বারা গণনা করা হয়।"
জেনারেটিভ এআই মডেলগুলির একটি বৈশিষ্ট্য হল ডেটা ইনপুটগুলির ব্যাপক ব্যবহার, যাতে পাঠ্য, ছবি, অডিও ফাইল, ভিডিও ফাইল, বা ইনপুটগুলির যে কোনও সংমিশ্রণ থাকতে পারে (একটি কেস সাধারণত "মাল্টি-মডেল" হিসাবে উল্লেখ করা হয়)। কপিরাইট দৃষ্টিকোণ থেকে, একটি গুরুত্বপূর্ণ প্রশ্ন (অনেক গুরুত্বপূর্ণ প্রশ্নের মধ্যে) জিজ্ঞাসা করা হল প্রশিক্ষণের উপকরণগুলি বড় ভাষা মডেল (LLM) বিভিন্ন এলএলএম বিক্রেতাদের দ্বারা উত্পাদিত। এই প্রশ্নের উত্তরে সাহায্য করার জন্য, আমাদের বুঝতে হবে কিভাবে পাঠ্য সামগ্রীগুলি প্রক্রিয়া করা হয়। পাঠ্যের উপর দৃষ্টি নিবদ্ধ করে, যা অনুসরণ করে তা হল এলএলএম প্রশিক্ষণের ঠিক সেই দিকটির একটি সংক্ষিপ্ত, অ-প্রযুক্তিগত বর্ণনা।
মানুষ ক্রমানুসারে শব্দ স্থাপন করে প্রাকৃতিক ভাষায় যোগাযোগ করে; একটি শব্দের সিকোয়েন্সিং এবং নির্দিষ্ট ফর্ম সম্পর্কে নিয়মগুলি নির্দিষ্ট ভাষা (যেমন, ইংরেজি) দ্বারা নির্ধারিত হয়। সমস্ত সফ্টওয়্যার সিস্টেমের জন্য আর্কিটেকচারের একটি অপরিহার্য অংশ যা পাঠ্য প্রক্রিয়া করে (এবং সেইজন্য সমস্ত AI সিস্টেমের জন্য যা তা করে) সেই পাঠ্যটিকে কীভাবে উপস্থাপন করা যায় যাতে সিস্টেমের কাজগুলি সবচেয়ে দক্ষতার সাথে সম্পাদন করা যায়। অতএব, ভাষার মডেলগুলিতে একটি পাঠ্য ইনপুট প্রক্রিয়াকরণের একটি মূল পদক্ষেপ হল ব্যবহারকারীর ইনপুটকে বিশেষ "শব্দে" বিভক্ত করা যা এআই সিস্টেম বুঝতে পারে। এই বিশেষ শব্দগুলিকে "টোকেন" বলা হয়। এর জন্য দায়ী উপাদানটিকে "টোকেনাইজার" বলা হয়। টোকেনাইজার অনেক ধরনের আছে। উদাহরণস্বরূপ, OpenAI এবং Azure OpenAI তাদের Generative Pretrained Transformer (GPT)-ভিত্তিক মডেলগুলির জন্য "বাইট-পেয়ার এনকোডিং (BPE)" নামে একটি সাবওয়ার্ড টোকেনাইজেশন পদ্ধতি ব্যবহার করে। BPE হল এমন একটি পদ্ধতি যা একটি নির্দিষ্ট সংখ্যক টোকেন বা শব্দভান্ডারের আকারে না পৌঁছানো পর্যন্ত অক্ষর বা বাইটের সবচেয়ে ঘন ঘন জোড়াকে একক টোকেনে একত্রিত করে। শব্দভান্ডারের আকার যত বড় হবে, মডেলটি তৈরি করতে পারে এমন পাঠ্যগুলি তত বেশি বৈচিত্র্যময় এবং অভিব্যক্তিপূর্ণ।
একবার AI সিস্টেম ইনপুট টেক্সটকে টোকেনে ম্যাপ করে ফেললে, এটি টোকেনগুলিকে সংখ্যায় এনকোড করে এবং ভেক্টর হিসাবে প্রসেস করা সিকোয়েন্সগুলিকে রূপান্তর করে যা "শব্দ এম্বেডিং" হিসাবে উল্লেখ করা হয়। একটি ভেক্টর হল সংখ্যার একটি ক্রমযুক্ত সেট – আপনি এটিকে একটি টেবিলের একটি সারি বা কলাম হিসাবে ভাবতে পারেন। এই ভেক্টরগুলি টোকেনের উপস্থাপনা যা তাদের আসল প্রাকৃতিক ভাষা উপস্থাপনা সংরক্ষণ করে যা পাঠ্য হিসাবে দেওয়া হয়েছিল। কপিরাইটের ক্ষেত্রে শব্দ এম্বেডিংয়ের ভূমিকা বোঝা গুরুত্বপূর্ণ কারণ এম্বেডিংগুলি সম্পূর্ণ বাক্য, এমনকি অনুচ্ছেদের উপস্থাপনা (বা এনকোডিং) গঠন করে এবং সেইজন্য, ভেক্টর সংমিশ্রণে এমনকি একটি উচ্চ-মাত্রিক ভেক্টর স্থানের সম্পূর্ণ নথি। এই এমবেডিংয়ের মাধ্যমেই এআই সিস্টেম প্রাকৃতিক ভাষা থেকে শব্দের অর্থ এবং সম্পর্কগুলি ক্যাপচার করে এবং সংরক্ষণ করে।
এম্বেডিংগুলি ব্যবহারিকভাবে প্রতিটি কাজে ব্যবহৃত হয় যা একটি জেনারেটিভ এআই সিস্টেম সম্পাদন করে (যেমন, টেক্সট জেনারেশন, টেক্সট সারমাইজেশন, টেক্সট ক্লাসিফিকেশন, টেক্সট ট্রান্সলেশন, ইমেজ জেনারেশন, কোড জেনারেশন ইত্যাদি)। শব্দ এমবেডিং সাধারণত ভেক্টর ডাটাবেসে সংরক্ষণ করা হয়, কিন্তু স্টোরেজের সমস্ত পদ্ধতির একটি বিশদ বিবরণ এই পোস্টের সুযোগের বাইরে কারণ সেখানে বিস্তৃত বিক্রেতা, প্রক্রিয়া এবং অনুশীলন রয়েছে।
উল্লিখিত হিসাবে, প্রায় সমস্ত এলএলএম ট্রান্সফরমার আর্কিটেকচারের উপর ভিত্তি করে, যা মনোযোগের প্রক্রিয়াকে আহ্বান করে। পরেরটি AI প্রযুক্তিকে অক্ষরগুলির নিছক ক্রম হিসাবে না দেখে সম্পূর্ণ বাক্য এবং এমনকি অনুচ্ছেদগুলিকে দেখতে দেয়। এটি সফ্টওয়্যারটিকে বিভিন্ন প্রসঙ্গগুলিকে ক্যাপচার করতে দেয় যার মধ্যে একটি শব্দ ঘটতে পারে এবং এই প্রসঙ্গগুলি কপিরাইটযুক্ত কাজ সহ প্রশিক্ষণে ব্যবহৃত কাজের দ্বারা সরবরাহ করা হয়, সেগুলি স্বেচ্ছাচারী নয়। এইভাবে, শব্দের মূল ব্যবহার, মূল কাজের প্রকাশ, AI সিস্টেমে সংরক্ষিত হয়। এটি পুনরুত্পাদন এবং বিশ্লেষণ করা যেতে পারে এবং নতুন অভিব্যক্তির ভিত্তি তৈরি করতে পারে (যা, নির্দিষ্ট পরিস্থিতির উপর নির্ভর করে, কপিরাইট ভাষায় "উত্পন্ন কাজ" হিসাবে চিহ্নিত করা যেতে পারে)।
এলএলএমগুলি মূল কাজের অভিব্যক্তি বজায় রাখে যার উপর তাদের প্রশিক্ষণ দেওয়া হয়েছে। তারা উদ্দেশ্য-নির্মিত ভেক্টর স্পেসগুলিতে পাঠ্যের অভ্যন্তরীণ উপস্থাপনা গঠন করে এবং ট্রিগার হিসাবে উপযুক্ত ইনপুট দেওয়া হলে, তারা তাদের প্রশিক্ষণে ব্যবহৃত মূল কাজগুলি পুনরুত্পাদন করতে পারে। AI সিস্টেমগুলি কপিরাইটযুক্ত বিষয়বস্তু সহ, LLM গুলিকে প্রশিক্ষণ দিতে ব্যবহৃত সামগ্রী থেকে চিরস্থায়ী সুবিধাগুলি অর্জন করে যার উপর তারা ভিত্তি করে। এলএলএম মূল কাজে শব্দের অভিব্যক্তির উপর ভিত্তি করে শব্দের প্রসঙ্গ চিনতে পারে। এবং এই প্রেক্ষাপটটি প্রশিক্ষণে ব্যবহৃত কপিরাইটযুক্ত কাজের হাজার হাজার বা লক্ষ লক্ষ জুড়ে AI সিস্টেমকে উপকৃত করে। এই মূল কাজগুলি এআই সিস্টেম দ্বারা পুনরায় তৈরি করা যেতে পারে কারণ সেগুলি কপিরাইটযুক্ত কাজের ভেক্টর - টোকেনগুলির ভেক্টর-স্পেস উপস্থাপনা যা তাদের আসল প্রাকৃতিক ভাষা উপস্থাপনা সংরক্ষণ করে - এ সংরক্ষণ করা হয়। কপিরাইট দৃষ্টিকোণ থেকে, LLM-এ প্রশিক্ষণের উপকরণগুলি রাখা হবে কিনা তা নির্ধারণ করা বিষয়টির কেন্দ্রবিন্দুতে রয়েছে এবং এটি স্পষ্ট যে সেই প্রশ্নের উত্তর হ্যাঁ।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- উত্স: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/
- : আছে
- : হয়
- :না
- :কোথায়
- 15%
- a
- সম্পর্কে
- দিয়ে
- Ad
- AI
- এআই মডেল
- এআই সিস্টেমগুলি
- সব
- অনুমতি
- প্রায়
- an
- বিশ্লেষণ
- এবং
- উত্তর
- কোন
- পন্থা
- যথাযথ
- অবাধ
- স্থাপত্য
- রয়েছি
- AS
- জিজ্ঞাসা করা
- দৃষ্টিভঙ্গি
- নির্ধারিত
- At
- মনোযোগ
- অডিও
- উপস্থিতি
- নভোনীল
- ভিত্তি
- ভিত্তি
- BE
- কারণ
- হয়েছে
- সুবিধা
- তার পরেও
- বাধা
- ভবন
- কিন্তু
- by
- নামক
- CAN
- গ্রেপ্তার
- ক্যাচ
- কেস
- কিছু
- চরিত্রগত
- ঘটায়,
- অক্ষর
- চ্যাটজিপিটি
- পরিস্থিতি
- শ্রেণীবিন্যাস
- পরিষ্কার
- কোড
- স্তম্ভ
- সমাহার
- সমন্বয়
- আসে
- যোগাযোগ
- সঙ্গতি
- উপাদান
- কলিত
- খরচ
- বিষয়বস্তু
- প্রসঙ্গ
- প্রসঙ্গ
- নকল
- কপিরাইট
- অনুরূপ
- পারা
- উপাত্ত
- ডাটাবেস
- ডেটাভার্সিটি
- সংজ্ঞায়িত
- নির্ভর করে
- প্রবাহ
- বর্ণিত
- বিবরণ
- বিশদ
- নির্ণয়
- নির্দেশিত
- বিচিত্র
- DM
- do
- কাগজপত্র
- অধীন
- e
- প্রতি
- দক্ষতার
- এনকোডিং
- ইংরেজি
- সমগ্র
- অধিকারী
- অপরিহার্য
- থার (eth)
- এমন কি
- ঘটনা
- প্রতি
- ঠিক
- উদাহরণ
- অভিব্যক্তি
- এক্সপ্রেশন
- ভাবপূর্ণ
- বৈশিষ্ট্য
- নথি পত্র
- মনোযোগ
- অনুসরণ
- অনুসরণ
- জন্য
- ফর্ম
- ঘনঘন
- থেকে
- ক্রিয়া
- ক্রিয়াকলাপ
- উত্পাদন করা
- প্রজন্ম
- সৃজক
- জেনারেটিভ এআই
- প্রদত্ত
- গুগল
- আছে
- শিরোনাম
- হৃদয়
- সাহায্য
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- ভাবমূর্তি
- ইমেজ প্রজন্ম
- চিত্র
- গুরুত্বপূর্ণ
- in
- সুদ্ধ
- ইনপুট
- ইনপুট
- অভ্যন্তরীণ
- মধ্যে
- ভূমিকা
- পূজা
- IT
- চাবি
- কী
- ভাষা
- বড়
- বৃহত্তর
- এলএলএম
- প্রণীত
- অনেক
- ম্যাপিং
- বৃহদায়তন
- উপকরণ
- ব্যাপার
- মে..
- অর্থ
- পদ্ধতি
- উল্লিখিত
- নিছক
- মার্জ
- পদ্ধতি
- লক্ষ লক্ষ
- মডেল
- মডেল
- মাসের
- অধিক
- সেতু
- প্রাকৃতিক
- স্বভাবিক ভাষা
- প্রয়োজন
- নিউরপ্স
- নতুন
- নিউজ লেটার
- অ-প্রযুক্তিগত
- সংখ্যা
- সংখ্যার
- ঘটা
- ঘটছে
- of
- on
- OpenAI
- or
- মূল
- রূপরেখা
- আউটপুট
- জোড়া
- কাগজ
- অংশ
- গত
- পিডিএফ
- সম্পাদিত
- সঞ্চালিত
- চিরস্থায়ী
- পরিপ্রেক্ষিত
- স্থাপন
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- পোস্ট
- কার্যকরীভাবে
- চর্চা
- রক্ষিত
- প্রক্রিয়া
- প্রক্রিয়াজাত
- প্রসেস
- প্রক্রিয়াজাতকরণ
- প্রযোজনা
- উন্নতি
- প্রদত্ত
- প্রকাশ্য
- প্রশ্ন
- প্রশ্ন
- প্রশ্ন
- বরং
- পৌঁছেছে
- চেনা
- উল্লেখ করা
- সম্পর্ক
- চিত্রিত করা
- প্রতিনিধিত্ব
- গবেষকরা
- দায়ী
- রাখা
- অপরিবর্তিত রাখা
- ভূমিকা
- সারিটি
- নিয়ম
- সুযোগ
- সিকোয়েন্সিং
- সেট
- একক
- আয়তন
- So
- সফটওয়্যার
- স্থান
- শূণ্যস্থান
- প্রশিক্ষণ
- নির্দিষ্ট
- ধাপ
- স্টোরেজ
- সঞ্চিত
- দোকান
- প্রস্তাব
- সমষ্টি
- পদ্ধতি
- সিস্টেম
- টেবিল
- কার্য
- টীম
- প্রযুক্তিঃ
- পাঠ
- পাঠ্য শ্রেণিবিন্যাস
- পাঠ্য প্রজন্ম
- পাঠগত
- চেয়ে
- যে
- সার্জারির
- তাদের
- সেখানে।
- অতএব
- এইগুলো
- তারা
- মনে
- এই
- সেগুলো
- হাজার হাজার
- দ্বারা
- শিরনাম
- থেকে
- টোকেন
- টোকেনাইজেশন
- টোকেন
- রেলগাড়ি
- প্রশিক্ষিত
- প্রশিক্ষণ
- ট্রান্সফরমার
- অনুবাদ
- ট্রিগার
- ধরনের
- বোঝা
- পর্যন্ত
- উপরে
- ব্যবহার
- ব্যবহৃত
- ব্যবহারকারী
- সাধারণত
- মূল্য
- মানগুলি
- বৈচিত্র্য
- বিভিন্ন
- বিক্রেতারা
- ভিডিও
- চেক
- দেখা
- ছিল
- উপায়..
- we
- সাপ্তাহিক
- ওজন
- ছিল
- কি
- কখন
- কিনা
- যে
- সমগ্র
- ব্যাপক
- সঙ্গে
- মধ্যে
- শব্দ
- শব্দ
- হয়া যাই ?
- কাজ
- হাঁ
- আপনি
- zephyrnet