হার্ট অফ দ্য ম্যাটার: এলএলএম-এর প্রশিক্ষণে অনুলিপি করার রহস্যময়তা - ডেটাভারসিটি

হার্ট অফ দ্য ম্যাটার: এলএলএম-এর প্রশিক্ষণে অনুলিপি করার রহস্যময়তা - ডেটাভারসিটি

উত্স নোড: 3093102

বিগত 15 মাসে প্রতিফলিত করে, জনসাধারণের কাছে ChatGPT প্রবর্তন এবং উপলব্ধতার পরে জেনারেটিভ AI এবং বড় ভাষা মডেলগুলিতে (LLMs) যে অগ্রগতি হয়েছে তা শিরোনামে প্রাধান্য পেয়েছে। 

এই অগ্রগতির বিল্ডিং ব্লক ছিল ট্রান্সফরমার মডেল আর্কিটেকচার যা Google গবেষকদের একটি দল দ্বারা "শিরোনামের একটি গবেষণাপত্রে বর্ণিত হয়েছেমনোযোগ আপনার প্রয়োজন সব" শিরোনাম থেকে বোঝা যায়, সমস্ত ট্রান্সফরমার মডেলের একটি মূল বৈশিষ্ট্য হল মনোযোগের প্রক্রিয়া, কাগজে নিম্নরূপ সংজ্ঞায়িত করা হয়েছে:

"একটি মনোযোগ ফাংশন একটি আউটপুটে একটি কোয়েরি এবং কী-মানের জোড়ার একটি সেট ম্যাপিং হিসাবে বর্ণনা করা যেতে পারে, যেখানে ক্যোয়ারী, কী, মান এবং আউটপুট সব ভেক্টর। আউটপুটটি মানগুলির একটি ওজনযুক্ত যোগফল হিসাবে গণনা করা হয়, যেখানে প্রতিটি মানের জন্য নির্ধারিত ওজন সংশ্লিষ্ট কী সহ ক্যোয়ারীটির একটি সামঞ্জস্যতা ফাংশন দ্বারা গণনা করা হয়।"

জেনারেটিভ এআই মডেলগুলির একটি বৈশিষ্ট্য হল ডেটা ইনপুটগুলির ব্যাপক ব্যবহার, যাতে পাঠ্য, ছবি, অডিও ফাইল, ভিডিও ফাইল, বা ইনপুটগুলির যে কোনও সংমিশ্রণ থাকতে পারে (একটি কেস সাধারণত "মাল্টি-মডেল" হিসাবে উল্লেখ করা হয়)। কপিরাইট দৃষ্টিকোণ থেকে, একটি গুরুত্বপূর্ণ প্রশ্ন (অনেক গুরুত্বপূর্ণ প্রশ্নের মধ্যে) জিজ্ঞাসা করা হল প্রশিক্ষণের উপকরণগুলি বড় ভাষা মডেল (LLM) বিভিন্ন এলএলএম বিক্রেতাদের দ্বারা উত্পাদিত। এই প্রশ্নের উত্তরে সাহায্য করার জন্য, আমাদের বুঝতে হবে কিভাবে পাঠ্য সামগ্রীগুলি প্রক্রিয়া করা হয়। পাঠ্যের উপর দৃষ্টি নিবদ্ধ করে, যা অনুসরণ করে তা হল এলএলএম প্রশিক্ষণের ঠিক সেই দিকটির একটি সংক্ষিপ্ত, অ-প্রযুক্তিগত বর্ণনা। 

মানুষ ক্রমানুসারে শব্দ স্থাপন করে প্রাকৃতিক ভাষায় যোগাযোগ করে; একটি শব্দের সিকোয়েন্সিং এবং নির্দিষ্ট ফর্ম সম্পর্কে নিয়মগুলি নির্দিষ্ট ভাষা (যেমন, ইংরেজি) দ্বারা নির্ধারিত হয়। সমস্ত সফ্টওয়্যার সিস্টেমের জন্য আর্কিটেকচারের একটি অপরিহার্য অংশ যা পাঠ্য প্রক্রিয়া করে (এবং সেইজন্য সমস্ত AI সিস্টেমের জন্য যা তা করে) সেই পাঠ্যটিকে কীভাবে উপস্থাপন করা যায় যাতে সিস্টেমের কাজগুলি সবচেয়ে দক্ষতার সাথে সম্পাদন করা যায়। অতএব, ভাষার মডেলগুলিতে একটি পাঠ্য ইনপুট প্রক্রিয়াকরণের একটি মূল পদক্ষেপ হল ব্যবহারকারীর ইনপুটকে বিশেষ "শব্দে" বিভক্ত করা যা এআই সিস্টেম বুঝতে পারে। এই বিশেষ শব্দগুলিকে "টোকেন" বলা হয়। এর জন্য দায়ী উপাদানটিকে "টোকেনাইজার" বলা হয়। টোকেনাইজার অনেক ধরনের আছে। উদাহরণস্বরূপ, OpenAI এবং Azure OpenAI তাদের Generative Pretrained Transformer (GPT)-ভিত্তিক মডেলগুলির জন্য "বাইট-পেয়ার এনকোডিং (BPE)" নামে একটি সাবওয়ার্ড টোকেনাইজেশন পদ্ধতি ব্যবহার করে। BPE হল এমন একটি পদ্ধতি যা একটি নির্দিষ্ট সংখ্যক টোকেন বা শব্দভান্ডারের আকারে না পৌঁছানো পর্যন্ত অক্ষর বা বাইটের সবচেয়ে ঘন ঘন জোড়াকে একক টোকেনে একত্রিত করে। শব্দভান্ডারের আকার যত বড় হবে, মডেলটি তৈরি করতে পারে এমন পাঠ্যগুলি তত বেশি বৈচিত্র্যময় এবং অভিব্যক্তিপূর্ণ।

একবার AI সিস্টেম ইনপুট টেক্সটকে টোকেনে ম্যাপ করে ফেললে, এটি টোকেনগুলিকে সংখ্যায় এনকোড করে এবং ভেক্টর হিসাবে প্রসেস করা সিকোয়েন্সগুলিকে রূপান্তর করে যা "শব্দ এম্বেডিং" হিসাবে উল্লেখ করা হয়। একটি ভেক্টর হল সংখ্যার একটি ক্রমযুক্ত সেট – আপনি এটিকে একটি টেবিলের একটি সারি বা কলাম হিসাবে ভাবতে পারেন। এই ভেক্টরগুলি টোকেনের উপস্থাপনা যা তাদের আসল প্রাকৃতিক ভাষা উপস্থাপনা সংরক্ষণ করে যা পাঠ্য হিসাবে দেওয়া হয়েছিল। কপিরাইটের ক্ষেত্রে শব্দ এম্বেডিংয়ের ভূমিকা বোঝা গুরুত্বপূর্ণ কারণ এম্বেডিংগুলি সম্পূর্ণ বাক্য, এমনকি অনুচ্ছেদের উপস্থাপনা (বা এনকোডিং) গঠন করে এবং সেইজন্য, ভেক্টর সংমিশ্রণে এমনকি একটি উচ্চ-মাত্রিক ভেক্টর স্থানের সম্পূর্ণ নথি। এই এমবেডিংয়ের মাধ্যমেই এআই সিস্টেম প্রাকৃতিক ভাষা থেকে শব্দের অর্থ এবং সম্পর্কগুলি ক্যাপচার করে এবং সংরক্ষণ করে। 

এম্বেডিংগুলি ব্যবহারিকভাবে প্রতিটি কাজে ব্যবহৃত হয় যা একটি জেনারেটিভ এআই সিস্টেম সম্পাদন করে (যেমন, টেক্সট জেনারেশন, টেক্সট সারমাইজেশন, টেক্সট ক্লাসিফিকেশন, টেক্সট ট্রান্সলেশন, ইমেজ জেনারেশন, কোড জেনারেশন ইত্যাদি)। শব্দ এমবেডিং সাধারণত ভেক্টর ডাটাবেসে সংরক্ষণ করা হয়, কিন্তু স্টোরেজের সমস্ত পদ্ধতির একটি বিশদ বিবরণ এই পোস্টের সুযোগের বাইরে কারণ সেখানে বিস্তৃত বিক্রেতা, প্রক্রিয়া এবং অনুশীলন রয়েছে।

উল্লিখিত হিসাবে, প্রায় সমস্ত এলএলএম ট্রান্সফরমার আর্কিটেকচারের উপর ভিত্তি করে, যা মনোযোগের প্রক্রিয়াকে আহ্বান করে। পরেরটি AI প্রযুক্তিকে অক্ষরগুলির নিছক ক্রম হিসাবে না দেখে সম্পূর্ণ বাক্য এবং এমনকি অনুচ্ছেদগুলিকে দেখতে দেয়। এটি সফ্টওয়্যারটিকে বিভিন্ন প্রসঙ্গগুলিকে ক্যাপচার করতে দেয় যার মধ্যে একটি শব্দ ঘটতে পারে এবং এই প্রসঙ্গগুলি কপিরাইটযুক্ত কাজ সহ প্রশিক্ষণে ব্যবহৃত কাজের দ্বারা সরবরাহ করা হয়, সেগুলি স্বেচ্ছাচারী নয়। এইভাবে, শব্দের মূল ব্যবহার, মূল কাজের প্রকাশ, AI সিস্টেমে সংরক্ষিত হয়। এটি পুনরুত্পাদন এবং বিশ্লেষণ করা যেতে পারে এবং নতুন অভিব্যক্তির ভিত্তি তৈরি করতে পারে (যা, নির্দিষ্ট পরিস্থিতির উপর নির্ভর করে, কপিরাইট ভাষায় "উত্পন্ন কাজ" হিসাবে চিহ্নিত করা যেতে পারে)। 

এলএলএমগুলি মূল কাজের অভিব্যক্তি বজায় রাখে যার উপর তাদের প্রশিক্ষণ দেওয়া হয়েছে। তারা উদ্দেশ্য-নির্মিত ভেক্টর স্পেসগুলিতে পাঠ্যের অভ্যন্তরীণ উপস্থাপনা গঠন করে এবং ট্রিগার হিসাবে উপযুক্ত ইনপুট দেওয়া হলে, তারা তাদের প্রশিক্ষণে ব্যবহৃত মূল কাজগুলি পুনরুত্পাদন করতে পারে। AI সিস্টেমগুলি কপিরাইটযুক্ত বিষয়বস্তু সহ, LLM গুলিকে প্রশিক্ষণ দিতে ব্যবহৃত সামগ্রী থেকে চিরস্থায়ী সুবিধাগুলি অর্জন করে যার উপর তারা ভিত্তি করে। এলএলএম মূল কাজে শব্দের অভিব্যক্তির উপর ভিত্তি করে শব্দের প্রসঙ্গ চিনতে পারে। এবং এই প্রেক্ষাপটটি প্রশিক্ষণে ব্যবহৃত কপিরাইটযুক্ত কাজের হাজার হাজার বা লক্ষ লক্ষ জুড়ে AI সিস্টেমকে উপকৃত করে। এই মূল কাজগুলি এআই সিস্টেম দ্বারা পুনরায় তৈরি করা যেতে পারে কারণ সেগুলি কপিরাইটযুক্ত কাজের ভেক্টর - টোকেনগুলির ভেক্টর-স্পেস উপস্থাপনা যা তাদের আসল প্রাকৃতিক ভাষা উপস্থাপনা সংরক্ষণ করে - এ সংরক্ষণ করা হয়। কপিরাইট দৃষ্টিকোণ থেকে, LLM-এ প্রশিক্ষণের উপকরণগুলি রাখা হবে কিনা তা নির্ধারণ করা বিষয়টির কেন্দ্রবিন্দুতে রয়েছে এবং এটি স্পষ্ট যে সেই প্রশ্নের উত্তর হ্যাঁ।

সময় স্ট্যাম্প:

থেকে আরো ডেটাভার্সিটি

ডেটা পর্ব 46-এ আমার কর্মজীবন: সিনথিয়া কেইন ফিটজেরাল্ড, ইউনিভার্সিটি ম্যানেজার, বিজনেস ইন্টেলিজেন্স অ্যানালিটিক্স, অ্যান্টিওক ইউনিভার্সিটি - ডেটাভারসিটি

উত্স নোড: 2848296
সময় স্ট্যাম্প: আগস্ট 23, 2023