7 সালে সবচেয়ে শক্তিশালী 2023 ভাষা (LLM) এবং ভিশন ল্যাঙ্গুয়েজ মডেল (VLM) রূপান্তরকারী AI

7 সালে সবচেয়ে শক্তিশালী 2023 ভাষা (LLM) এবং ভিশন ল্যাঙ্গুয়েজ মডেল (VLM) রূপান্তরকারী AI

উত্স নোড: 2757531

BLIP-2, দৃষ্টি ভাষা মডেল

কৃত্রিম বুদ্ধিমত্তার দ্রুত বিকাশমান ক্ষেত্রে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ গবেষক এবং বিকাশকারীদের জন্য একইভাবে একটি কেন্দ্রবিন্দু হয়ে উঠেছে। এর ভিত্তির উপর বিল্ডিং ট্রান্সফরমার আর্কিটেকচার এবং BERT এর দ্বিমুখী আপগ্রেড, সাম্প্রতিক বছরগুলিতে বেশ কয়েকটি যুগান্তকারী ভাষার মডেল আবির্ভূত হয়েছে, যা মেশিনগুলি কী বুঝতে এবং তৈরি করতে পারে তার সীমানাকে ঠেলে দেয়৷

এই নিবন্ধে, আমরা বৃহৎ মাপের ভাষা মডেলের বিশ্বের সর্বশেষ অগ্রগতি, প্রতিটি মডেলের দ্বারা প্রবর্তিত বর্ধন, তাদের ক্ষমতা এবং সম্ভাব্য অ্যাপ্লিকেশনগুলি অন্বেষণ করব। আমরা ভিজ্যুয়াল ল্যাঙ্গুজ মডেলগুলি (ভিএলএম)ও দেখব যেগুলি কেবল পাঠ্য নয়, ভিজ্যুয়াল ডেটাও প্রক্রিয়া করার জন্য প্রশিক্ষিত।

আপনি যদি এড়িয়ে যেতে চান, এখানে আমরা বৈশিষ্ট্যযুক্ত ভাষা মডেল:

  1. OpenAI দ্বারা GPT-3
  2. Google দ্বারা LaMDA
  3. Google দ্বারা PaLM
  4. ডিপমাইন্ডের ফ্ল্যামিঙ্গো
  5. সেলসফোর্স দ্বারা BLIP-2
  6. মেটা এআই দ্বারা LLaMA
  7. OpenAI দ্বারা GPT-4

যদি এই গভীর-শিক্ষামূলক সামগ্রী আপনার জন্য কার্যকর হয় তবে আপনি তা করতে পারেন আমাদের এআই গবেষণা মেলিং তালিকার সাবস্ক্রাইব করুন সতর্কতা অবলম্বন করার জন্য যখন আমরা নতুন উপাদান প্রকাশ করি। 

2023 সালে সবচেয়ে গুরুত্বপূর্ণ বড় ভাষার মডেল (LLM) এবং ভিজ্যুয়াল ল্যাঙ্গুয়েজ মডেল (VLMs)

1. OpenAI দ্বারা GPT-3

সারাংশ 

ওপেনএআই দল প্রতিটি নতুন ভাষার কাজের জন্য একটি লেবেলযুক্ত ডেটাসেট থাকার বিকল্প হিসাবে GPT-3 চালু করেছে। তারা পরামর্শ দিয়েছে যে ভাষার মডেলগুলিকে স্কেল করা টাস্ক-অজ্ঞেয়বাদী কয়েক-শট কর্মক্ষমতা উন্নত করতে পারে। এই পরামর্শটি পরীক্ষা করার জন্য, তারা একটি 175B-প্যারামিটার অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলকে প্রশিক্ষিত করেছে, যাকে বলা হয় GPT-3, এবং দুই ডজনেরও বেশি NLP টাস্কে এর কর্মক্ষমতা মূল্যায়ন করেছে। অল্প-শট লার্নিং, ওয়ান-শট লার্নিং, এবং জিরো-শট লার্নিং-এর অধীনে মূল্যায়ন দেখায় যে GPT-3 আশাব্যঞ্জক ফলাফল অর্জন করেছে এবং এমনকি মাঝে মাঝে সূক্ষ্ম-টিউনড মডেল দ্বারা অর্জিত অত্যাধুনিক ফলাফলগুলিকে ছাড়িয়ে গেছে। 

লক্ষ্য কি? 

  • বিদ্যমান সমস্যার একটি বিকল্প সমাধানের পরামর্শ দিতে, যখন প্রতিটি নতুন ভাষার কাজের জন্য একটি লেবেলযুক্ত ডেটাসেট প্রয়োজন হয়।

কিভাবে সমস্যা যোগাযোগ করা হয়?

  • গবেষকরা টাস্ক-অজ্ঞেয়বাদী কয়েক-শট কর্মক্ষমতা উন্নত করার জন্য ভাষার মডেলগুলিকে স্কেল করার পরামর্শ দিয়েছেন। 
  • সার্জারির GPT-3 মডেল একই মডেল এবং আর্কিটেকচার GPT-2 ব্যবহার করে, যার মধ্যে রয়েছে পরিবর্তিত প্রারম্ভিকতা, প্রাক-সাধারণকরণ এবং বিপরীত টোকেনাইজেশন।
  • যাইহোক, GPT-2 এর বিপরীতে, এটি ট্রান্সফরমারের স্তরগুলিতে বিকল্প ঘন এবং স্থানীয়ভাবে ব্যান্ডযুক্ত স্পার্স মনোযোগ নিদর্শন ব্যবহার করে, যেমন স্পার্স ট্রান্সফরমার.
GPT-3

ফলাফল কি?

  • ফাইন-টিউনিং ছাড়াই জিপিটি-3 মডেলটি বেশ কয়েকটি এনএলপি টাস্কে আশাব্যঞ্জক ফলাফল অর্জন করে, এবং এমনকি মাঝে মাঝে অত্যাধুনিক মডেলগুলিকেও ছাড়িয়ে যায় যেগুলি সেই নির্দিষ্ট কাজের জন্য সূক্ষ্ম সুর করা হয়েছিল:
    • উপরে CoQA বেঞ্চমার্ক, শূন্য-শট সেটিং-এ 81.5 F1, এক-শট সেটিং-এ 84.0 F1, এবং কয়েক-শট সেটিং-এ 85.0 F1, সূক্ষ্ম-টিউনড SOTA দ্বারা অর্জিত 90.7 F1 স্কোরের তুলনায়।
    • উপরে ট্রিভিয়াকিউএ বেঞ্চমার্ক, জিরো-শট সেটিংয়ে 64.3% নির্ভুলতা, ওয়ান-শট সেটিংয়ে 68.0% এবং কয়েক-শট সেটিংয়ে 71.2%, শিল্পের অবস্থাকে (68%) 3.2% ছাড়িয়ে গেছে।
    • উপরে লাম্বদা ডেটাসেট, জিরো-শট সেটিংয়ে 76.2% নির্ভুলতা, এক-শট সেটিংয়ে 72.5%, এবং কয়েক-শট সেটিংয়ে 86.4%, শিল্পের অবস্থাকে (68%) 18% ছাড়িয়ে গেছে।
  • 175B-প্যারামিটার GPT-3 মডেলের দ্বারা উত্পন্ন সংবাদ নিবন্ধগুলি মানুষের মূল্যায়ন অনুসারে বাস্তবের থেকে আলাদা করা কঠিন (সঠিকতা ~52% এ সুযোগের স্তরের উপরে)। 
  • GPT-3 এর অসাধারণ পারফরম্যান্স সত্ত্বেও, এটি AI সম্প্রদায় থেকে মিশ্র পর্যালোচনা পেয়েছে:
    • “GPT-3 হাইপ অনেক বেশি। এটি চিত্তাকর্ষক (সুন্দর প্রশংসার জন্য ধন্যবাদ!) তবে এটির এখনও গুরুতর দুর্বলতা রয়েছে এবং কখনও কখনও খুব নির্বোধ ভুল করে। AI বিশ্বকে বদলে দিতে চলেছে, কিন্তু GPT-3 হল একটি খুব প্রাথমিক আভাস। আমাদের এখনও অনেক কিছু বের করতে হবে।” - স্যাম অল্টম্যান, ওপেনএআই-এর সিইও এবং সহ-প্রতিষ্ঠাতা.
    • "আমি হতবাক হয়ে গেছি যে GPT-3 থেকে মুসলমানদের সম্পর্কে পাঠ্য তৈরি করা কতটা কঠিন যে সহিংসতার সাথে কোন সম্পর্ক নেই... বা হত্যা করা হচ্ছে..." - আবুবকর আবিদ, সিইও এবং গ্র্যাডিওর প্রতিষ্ঠাতা.
    • “না। GPT-3 মৌলিকভাবে যে বিশ্ব সম্পর্কে কথা বলে তা বুঝতে পারে না। কর্পাস আরও বৃদ্ধি করা এটিকে আরও বিশ্বাসযোগ্য প্যাস্টিচ তৈরি করার অনুমতি দেবে তবে বিশ্বের বোঝার মৌলিক অভাবকে ঠিক করবে না। GPT-4 এর ডেমোর জন্য এখনও মানুষের চেরি পিকিং প্রয়োজন হবে।" - গ্যারি মার্কাস, সিইও এবং Robust.ai এর প্রতিষ্ঠাতা.
    • "ভবিষ্যতে GPT3-এর দর্শনীয় পারফরম্যান্সকে এক্সট্রাপোলেট করা পরামর্শ দেয় যে জীবন, মহাবিশ্ব এবং সবকিছুর উত্তর মাত্র 4.398 ট্রিলিয়ন প্যারামিটার।" - জিওফ্রে হিন্টন, টুরিং পুরস্কার বিজয়ী.

কোথায় এই গবেষণা সম্পর্কে আরও জানতে?

আপনি কোথায় প্রয়োগের কোড পেতে পারেন?

  • কোডটি নিজেই উপলব্ধ নয়, তবে GPT-2048 থেকে শর্তহীন, ফিল্টারবিহীন 3-টোকেন নমুনার সাথে কিছু ডেটাসেট পরিসংখ্যান প্রকাশ করা হয়েছে GitHub.

2. Google দ্বারা LaMDA

সারাংশ 

Laভাষা Mজন্য আদর্শ Dআইলগ Aঅ্যাপ্লিকেশন (এমডিএ) ট্রান্সফরমার-ভিত্তিক নিউরাল ল্যাঙ্গুয়েজ মডেলের একটি গ্রুপ ফাইন-টিউনিং প্রক্রিয়ার মাধ্যমে তৈরি করা হয়েছে যা বিশেষভাবে সংলাপের জন্য ডিজাইন করা হয়েছে। এই মডেলগুলির সর্বাধিক 137B প্যারামিটার রয়েছে এবং জ্ঞানের বাহ্যিক উত্সগুলি ব্যবহার করার জন্য প্রশিক্ষণ দেওয়া হয়েছিল৷ LaMDA ডেভেলপারদের মাথায় তিনটি মূল উদ্দেশ্য ছিল – গুণমান, নিরাপত্তা এবং ভিত্তি। ফলাফলগুলি দেখিয়েছে যে সূক্ষ্ম-টিউনিং মানব স্তরে মানের ব্যবধানকে সংকুচিত করার অনুমতি দেয়, কিন্তু মডেলটির কার্যকারিতা নিরাপত্তা এবং গ্রাউন্ডেডনেসের ক্ষেত্রে মানব স্তরের নীচেই ছিল। 

গুগলের বার্ড, মুক্ত সম্প্রতি ChatGPT-এর বিকল্প হিসেবে, LaMDA দ্বারা চালিত। বার্ড প্রায়ই হিসাবে লেবেল হচ্ছে সত্ত্বেও বিরক্তিকর, এটিকে নিরাপত্তাকে অগ্রাধিকার দেওয়ার প্রতি Google-এর প্রতিশ্রুতির প্রমাণ হিসাবে দেখা যেতে পারে, এমনকি জেনারেটিভ AI ক্ষেত্রে আধিপত্য প্রতিষ্ঠার জন্য Google এবং Microsoft এর মধ্যে তীব্র প্রতিদ্বন্দ্বিতার মধ্যেও।

লক্ষ্য কি? 

  • ওপেন-ডোমেন ডায়ালগ অ্যাপ্লিকেশানগুলির জন্য একটি মডেল তৈরি করতে, যেখানে একটি ডায়ালগ এজেন্ট যেকোন বিষয় সম্পর্কে কথা বলতে সক্ষম হয় যার প্রতিক্রিয়াগুলি বোধগম্য, প্রসঙ্গে নির্দিষ্ট, নির্ভরযোগ্য উত্সের উপর ভিত্তি করে এবং নৈতিক।

কিভাবে সমস্যা যোগাযোগ করা হয়?

  • LaMDA উপর নির্মিত হয় ট্রান্সফরমার, একটি নিউরাল নেটওয়ার্ক আর্কিটেকচার যা Google রিসার্চ 2017 সালে উদ্ভাবিত এবং ওপেন সোর্স করেছে।
    • BERT এবং GPT-3 সহ অন্যান্য বৃহৎ ভাষার মডেলগুলির মতো, LaMDA-কে টেরাবাইট টেক্সট ডেটার উপর প্রশিক্ষণ দেওয়া হয় যাতে শব্দগুলি একে অপরের সাথে সম্পর্কিত এবং তারপরে পরবর্তীতে কোন শব্দগুলি আসতে পারে তা ভবিষ্যদ্বাণী করে। 
    • যাইহোক, বেশিরভাগ ভাষার মডেলের বিপরীতে, LaMDA-কে কথোপকথনের উপর প্রশিক্ষিত করা হয়েছিল এমন সূক্ষ্ম বিষয়গুলি বাছাই করার জন্য যা অন্যান্য ভাষা থেকে খোলামেলা কথোপকথনকে আলাদা করে।
  • এর প্রতিক্রিয়াগুলির সংবেদনশীলতা, সুরক্ষা এবং নির্দিষ্টতা উন্নত করার জন্য মডেলটিও সূক্ষ্মভাবে তৈরি করা হয়েছে। যদিও "এটি চমৎকার" এবং "আমি জানি না" এর মতো বাক্যাংশগুলি অনেক ডায়ালগ পরিস্থিতিতে অর্থপূর্ণ হতে পারে, তবে সেগুলি আকর্ষণীয় এবং আকর্ষক কথোপকথনের দিকে নিয়ে যাওয়ার সম্ভাবনা নেই৷
    • LaMDA জেনারেটর প্রথমে বেশ কয়েকটি প্রার্থীর প্রতিক্রিয়া তৈরি করে, যেগুলি কতটা নিরাপদ, বুদ্ধিমান, নির্দিষ্ট এবং আকর্ষণীয় তার উপর ভিত্তি করে স্কোর করা হয়। কম নিরাপত্তা স্কোর সহ প্রতিক্রিয়া ফিল্টার আউট করা হয়, এবং তারপর একটি প্রতিক্রিয়া হিসাবে শীর্ষ-র্যাঙ্কের ফলাফল নির্বাচন করা হয়।
LaMDA ডায়ালগ উদাহরণ

ফলাফল কি?

  • অসংখ্য পরীক্ষা-নিরীক্ষা দেখায় যে LaMDA বিভিন্ন বিষয়ে খোলামেলা কথোপকথনে অংশগ্রহণ করতে পারে।
  • গুণগত মূল্যায়নের একটি সিরিজ নিশ্চিত করেছে যে মডেলের প্রতিক্রিয়াগুলি বোধগম্য, সুনির্দিষ্ট, আকর্ষণীয় এবং নির্ভরযোগ্য বাহ্যিক উত্সগুলির উপর ভিত্তি করে থাকে তবে উন্নতির জন্য এখনও অবকাশ রয়েছে।
  • এখনও অবধি সমস্ত অগ্রগতি হওয়া সত্ত্বেও, লেখকরা স্বীকার করেছেন যে মডেলটির এখনও অনেক সীমাবদ্ধতা রয়েছে যা অনুপযুক্ত বা এমনকি ক্ষতিকারক প্রতিক্রিয়া তৈরি করতে পারে।

কোথায় এই গবেষণা সম্পর্কে আরও জানতে?

আপনি কোথায় প্রয়োগের কোড পেতে পারেন?

  • LaMDA-এর প্রাক-প্রশিক্ষণ আর্কিটেকচারের জন্য একটি ওপেন-সোর্স পাইটর্চ বাস্তবায়ন এখানে উপলব্ধ GitHub.

3. Google দ্বারা PaLM

সারাংশ 

Pathways Lভাষা Mআদর্শ (পাএলএম) একটি 540-বিলিয়ন প্যারামিটার, ট্রান্সফরমার-ভিত্তিক ভাষা মডেল। PaLM-কে 6144 টিপিইউ v4 চিপগুলিতে পাথওয়েজ ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল, একাধিক TPU পড জুড়ে দক্ষ প্রশিক্ষণের জন্য একটি নতুন ML সিস্টেম। মডেলটি কয়েক শট শেখার ক্ষেত্রে স্কেলিংয়ের সুবিধাগুলি প্রদর্শন করে, শত শত ভাষা বোঝার এবং প্রজন্মের বেঞ্চমার্কের উপর অত্যাধুনিক ফলাফল অর্জন করে। PaLM মাল্টি-স্টেপ রিজনিং টাস্কে অত্যাধুনিক মডেলগুলিকে ছাড়িয়ে যায় এবং BIG-বেঞ্চ বেঞ্চমার্কে গড় মানব কর্মক্ষমতাকে ছাড়িয়ে যায়।

লক্ষ্য কি? 

  • বৃহৎ ভাষার মডেলের স্কেলিং কীভাবে অল্প-শট শিক্ষাকে প্রভাবিত করে তা বোঝার উন্নতি করতে।

কিভাবে সমস্যা যোগাযোগ করা হয়?

  • মূল ধারণাটি হল পাথওয়ে সিস্টেমের সাথে একটি 540-বিলিয়ন প্যারামিটার ভাষা মডেলের প্রশিক্ষণকে স্কেল করা:
    • দলটি প্রতিটি পডের মধ্যে স্ট্যান্ডার্ড ডেটা এবং মডেল সমান্তরালতা ব্যবহার করার সময় দুটি ক্লাউড TPU v4 পড জুড়ে পড স্তরে ডেটা সমান্তরালতা ব্যবহার করছিল।
    • তারা 6144 টিপিইউ ভি4 চিপগুলিতে প্রশিক্ষণ স্কেল করতে সক্ষম হয়েছিল, যা আজ পর্যন্ত প্রশিক্ষণের জন্য ব্যবহৃত বৃহত্তম টিপিইউ-ভিত্তিক সিস্টেম কনফিগারেশন।
    • মডেলটি 57.8% হার্ডওয়্যার FLOPs ব্যবহারের একটি প্রশিক্ষণ দক্ষতা অর্জন করেছে, যা লেখকদের দাবি হিসাবে, এই স্কেলে বৃহৎ ভাষার মডেলগুলির জন্য সর্বোচ্চ এখনও অর্জিত প্রশিক্ষণ দক্ষতা। 
  • PaLM মডেলের প্রশিক্ষণ ডেটাতে উচ্চ-মানের ওয়েব নথি, বই, উইকিপিডিয়া, কথোপকথন এবং গিটহাব কোড সহ ইংরেজি এবং বহুভাষিক ডেটাসেটের সংমিশ্রণ অন্তর্ভুক্ত ছিল।
Google দ্বারা PaLM মডেল

ফলাফল কি?

  • অসংখ্য পরীক্ষা-নিরীক্ষা প্রমাণ করে যে দলটি তাদের বৃহত্তম মডেলে স্কেল করার সাথে সাথে মডেলের কর্মক্ষমতা তীব্রভাবে বৃদ্ধি পেয়েছে।
  • PaLM 540B একাধিক অত্যন্ত কঠিন কাজে যুগান্তকারী কর্মক্ষমতা অর্জন করেছে:
    • ভাষা বোঝা এবং প্রজন্ম. প্রবর্তিত মডেলটি 28টি কাজের মধ্যে 29টিতে পূর্ববর্তী বড় মডেলের কয়েকটি শট পারফরম্যান্সকে ছাড়িয়ে গেছে যার মধ্যে রয়েছে প্রশ্ন-উত্তর দেওয়ার কাজ, ক্লোজ এবং বাক্য-সম্পূর্ণ কাজ, প্রেক্ষাপটে পড়ার বোঝার কাজ, সাধারণ জ্ঞানের যুক্তির কাজ, সুপারগ্লুই টাস্ক এবং আরো বিআইজি-বেঞ্চের কাজগুলিতে PaLM-এর কর্মক্ষমতা দেখিয়েছে যে এটি কারণ এবং প্রভাবকে আলাদা করতে পারে, সেইসাথে উপযুক্ত প্রসঙ্গে ধারণাগত সমন্বয় বুঝতে পারে।
    • যুক্তি. 8-শট প্রম্পটিংয়ের মাধ্যমে, PaLM GSM58K-এর 8% সমস্যার সমাধান করে, যা হাজার হাজার চ্যালেঞ্জিং গ্রেড স্কুল স্তরের গণিত প্রশ্নের একটি মানদণ্ড, GPT-55 3B মডেলের ফাইন-টিউনিং দ্বারা অর্জিত 175% এর আগের শীর্ষ স্কোরকে ছাড়িয়ে যায়। PaLM এমন পরিস্থিতিতে সুস্পষ্ট ব্যাখ্যা তৈরি করার ক্ষমতাও প্রদর্শন করে যার জন্য বহু-পদক্ষেপের যৌক্তিক অনুমান, বিশ্ব জ্ঞান এবং গভীর ভাষা বোঝার জটিল সমন্বয় প্রয়োজন।
    • কোড জেনারেশন. PaLM প্রশিক্ষণের জন্য 12 গুণ কম পাইথন কোড ব্যবহার করার সময় সূক্ষ্ম-টিউনড কোডেক্স 50B-এর সাথে সমানভাবে পারফর্ম করে, এটি নিশ্চিত করে যে বড় ভাষার মডেলগুলি অন্যান্য প্রোগ্রামিং ভাষা এবং প্রাকৃতিক ভাষা ডেটা উভয় থেকে আরও কার্যকরভাবে শিক্ষা স্থানান্তর করে।

কোথায় এই গবেষণা সম্পর্কে আরও জানতে?

আপনি কোথায় প্রয়োগের কোড পেতে পারেন?

  • PaLM গবেষণা পত্র থেকে নির্দিষ্ট ট্রান্সফরমার আর্কিটেকচারের একটি অনানুষ্ঠানিক PyTorch বাস্তবায়ন পাওয়া যায় GitHub. এটি স্কেল হবে না এবং শুধুমাত্র শিক্ষাগত উদ্দেশ্যে প্রকাশিত হয়। 

4. ডিপমাইন্ড দ্বারা ফ্ল্যামিঙ্গো

সারাংশ 

ফ্ল্যামিঙ্গো হল ভিজ্যুয়াল ল্যাঙ্গুয়েজ মডেলের (VLMs) একটি অত্যাধুনিক পরিবার, যা মিশ্র পাঠ্য এবং চিত্র সহ বড় আকারের মাল্টিমোডাল ওয়েব কর্পোরাতে প্রশিক্ষিত। এই প্রশিক্ষণের মাধ্যমে, মডেলগুলি প্রম্পট হিসাবে দেওয়া ন্যূনতম টীকাযুক্ত উদাহরণগুলি ব্যবহার করে নতুন কাজের সাথে খাপ খাইয়ে নিতে পারে। ফ্ল্যামিঙ্গো মূল স্থাপত্যগত অগ্রগতিগুলিকে অন্তর্ভুক্ত করে যা পূর্ব-প্রশিক্ষিত দৃষ্টিভঙ্গি এবং শুধুমাত্র ভাষা-মডেলের শক্তিগুলিকে একত্রিত করার জন্য ডিজাইন করা হয়েছে, পরিবর্তনশীলভাবে আন্তঃলিখিত ভিজ্যুয়াল এবং পাঠ্য ডেটার প্রক্রিয়া ক্রম এবং ইনপুট হিসাবে ছবি বা ভিডিওগুলিকে নির্বিঘ্নে মিটমাট করা হয়েছে৷ মডেলগুলি চিত্র এবং ভিডিও কাজগুলির একটি পরিসরে যেমন ভিজ্যুয়াল প্রশ্ন-উত্তর, ক্যাপশনিং টাস্ক, এবং একাধিক-পছন্দের ভিজ্যুয়াল প্রশ্ন-উত্তর, কয়েকটি শট শেখার ক্ষেত্রে টাস্ক-নির্দিষ্ট প্রম্পট ব্যবহার করে নতুন কর্মক্ষমতা মান নির্ধারণ করে চিত্তাকর্ষক অভিযোজনযোগ্যতা প্রদর্শন করে।

লক্ষ্য কি? 

  • সংক্ষিপ্ত নির্দেশাবলীর উপর ভিত্তি করে দ্রুত শিখতে এবং সম্পাদন করতে মাল্টিমোডাল মডেলগুলিকে সক্ষম করার দিকে অগ্রগতি করতে:
    • প্রচুর পরিমাণে তত্ত্বাবধানে থাকা ডেটার উপর একটি মডেলকে পূর্ব-প্রশিক্ষণ দেওয়ার জন্য ব্যাপকভাবে ব্যবহৃত দৃষ্টান্ত, তারপর নির্দিষ্ট কাজের জন্য এটিকে সূক্ষ্ম-টিউনিং করা, সম্পদ-নিবিড় এবং প্রতি-টাস্ক হাইপারপ্যারামিটার টিউনিং সহ হাজার হাজার টীকাযুক্ত ডেটা পয়েন্টের প্রয়োজন। 
    • বর্তমান মডেলগুলি যেগুলি একটি বিপরীত উদ্দেশ্য ব্যবহার করে সেগুলি নতুন কাজের জন্য শূন্য-শট অভিযোজন করার অনুমতি দেয় তবে ক্যাপশনিং বা ভিজ্যুয়াল প্রশ্ন-উত্তর দেওয়ার মতো আরও খোলামেলা কাজগুলিতে কম পড়ে কারণ তাদের ভাষা তৈরির ক্ষমতার অভাব রয়েছে৷ 
    • এই গবেষণার লক্ষ্য একটি নতুন মডেল প্রবর্তন করা যা কার্যকরভাবে এই সমস্যাগুলিকে মোকাবেলা করে এবং কম-ডেটা ব্যবস্থাগুলিতে উচ্চতর কর্মক্ষমতা প্রদর্শন করে।

কিভাবে সমস্যা যোগাযোগ করা হয়?

  • ডিপমাইন্ড শুধুমাত্র কয়েকটি ইনপুট/আউটপুট উদাহরণ ব্যবহার করে বিভিন্ন উন্মুক্ত দৃষ্টিভঙ্গি এবং ভাষার কাজগুলিতে অল্প-শট শেখার জন্য ডিজাইন করা ফ্ল্যামিঙ্গো, ভিএলএম চালু করেছে।
  • ফ্ল্যামিঙ্গো মডেল হল ভিজ্যুয়াল-কন্ডিশনড অটোরিগ্রেসিভ টেক্সট জেনারেশন মডেল যা ছবি এবং/অথবা ভিডিওর সাথে মিশ্রিত টেক্সট টোকেন প্রক্রিয়া করতে পারে এবং আউটপুট হিসাবে টেক্সট তৈরি করতে পারে।
  • ফ্ল্যামিঙ্গোর স্থাপত্যে দুটি পরিপূরক প্রাক-প্রশিক্ষিত এবং হিমায়িত মডেল রয়েছে:
    • ভিজ্যুয়াল দৃশ্যগুলি "অনুভূতি" করতে সক্ষম একটি দৃষ্টি মডেল৷
    • একটি বৃহৎ ভাষা মডেল মৌলিক যুক্তি সম্পাদনের দায়িত্বপ্রাপ্ত।
  • অভিনব স্থাপত্য উপাদানগুলি এই মডেলগুলিকে এমনভাবে একত্রিত করে যা তাদের গণনামূলকভাবে নিবিড় প্রাক-প্রশিক্ষণের সময় অর্জিত জ্ঞান ধরে রাখে।
  • এছাড়াও, ফ্ল্যামিঙ্গো মডেলগুলিতে একটি পারসিভার-ভিত্তিক আর্কিটেকচার রয়েছে, যা তাদের উচ্চ-রেজোলিউশনের ছবি বা ভিডিও গ্রহণ করতে দেয়। এই আর্কিটেকচারটি ভিজ্যুয়াল ইনপুট বৈশিষ্ট্যগুলির একটি বিস্তৃত এবং পরিবর্তনশীল অ্যারে থেকে প্রতি চিত্র/ভিডিওতে একটি নির্দিষ্ট সংখ্যক ভিজ্যুয়াল টোকেন তৈরি করতে পারে।

ফলাফল কি?

  • গবেষণাটি দেখায় যে একইভাবে এলএলএম, যেগুলি ভাল কিছু-শট লার্নার্স, ভিএলএমগুলি শ্রেণীবিভাগ, ক্যাপশনিং বা প্রশ্ন-উত্তর দেওয়ার মতো চিত্র এবং ভিডিও বোঝার কাজগুলির জন্য কয়েকটি ইনপুট/আউটপুট উদাহরণ থেকে শিখতে পারে।
  • 16টি মাল্টিমোডাল ভাষা এবং ছবি/ভিডিও বোঝার কাজগুলির একটি বিস্তৃত পরিসরে উচ্চতর কর্মক্ষমতা প্রদর্শন করে ফ্ল্যামিঙ্গো কয়েকটি শট শেখার ক্ষেত্রে একটি নতুন মানদণ্ড প্রতিষ্ঠা করে।
  • এই 6টি কাজের মধ্যে 16টির জন্য, ফ্ল্যামিঙ্গো শিল্পের সূক্ষ্ম-সুরক্ষিত অবস্থার পারফরম্যান্সকে ছাড়িয়ে গেছে, যদিও এটি শুধুমাত্র 32টি টাস্ক-নির্দিষ্ট উদাহরণ ব্যবহার করে – বর্তমান সেরা-পারফর্মিং মডেলগুলির তুলনায় প্রায় 1000 গুণ কম টাস্ক-নির্দিষ্ট প্রশিক্ষণ ডেটা।
ফ্লেমিংগো ভিশন ভাষার মডেল

কোথায় এই গবেষণা সম্পর্কে আরও জানতে?

আপনি কোথায় প্রয়োগের কোড পেতে পারেন?

  • ডিপমাইন্ড ফ্লেমিংগোর আনুষ্ঠানিক বাস্তবায়ন প্রকাশ করেনি। 
  • আপনি তে প্রবর্তিত পদ্ধতির ওপেন সোর্স বাস্তবায়ন খুঁজে পেতে পারেন OpenFlamingo Github Repo.
  • বিকল্প PyTorch বাস্তবায়ন উপলব্ধ এখানে.

5. সেলসফোর্স দ্বারা BLIP-2

সারাংশ 

BLIP-2 হল দৃষ্টি-এবং-ভাষা মডেলগুলির জন্য একটি দক্ষ এবং জেনেরিক প্রাক-প্রশিক্ষণ কাঠামো, যা প্রি-প্রশিক্ষণের বৃহৎ-স্কেল মডেলগুলির ক্রমবর্ধমান নিষেধাজ্ঞামূলক খরচ এড়াতে ডিজাইন করা হয়েছে। BLIP-2 দৃষ্টি-ভাষা প্রাক-প্রশিক্ষণ বুটস্ট্র্যাপ করার জন্য অফ-দ্য-শেল্ফ ফ্রোজেন প্রাক-প্রশিক্ষিত ইমেজ এনকোডার এবং হিমায়িত বৃহৎ ভাষার মডেলগুলিকে দুটি পর্যায়ে প্রাক-প্রশিক্ষিত একটি লাইটওয়েট কোয়েরিং ট্রান্সফরমার অন্তর্ভুক্ত করে। প্রথম পর্যায়টি হিমায়িত ইমেজ এনকোডার থেকে দৃষ্টি-ভাষা উপস্থাপনা শেখার সূচনা করে, এবং দ্বিতীয় পর্যায়টি হিমায়িত ভাষা মডেল থেকে দৃষ্টি-টু-ভাষা জেনারেটিভ শিক্ষাকে এগিয়ে নিয়ে যায়। উল্লেখযোগ্যভাবে কম প্রশিক্ষণযোগ্য প্যারামিটার থাকা সত্ত্বেও, BLIP-2 অত্যাধুনিক পদ্ধতিগুলিকে ছাড়িয়ে গেছে, 80x কম প্রশিক্ষণযোগ্য প্যারামিটার সহ শূন্য-শট VQAv8.7-এ 2% ডিপমাইন্ডের ফ্ল্যামিঙ্গো 54B-কে ছাড়িয়ে গেছে। মডেলটি প্রাকৃতিক ভাষার নির্দেশাবলী অনুসরণ করে প্রতিশ্রুতিশীল জিরো-শট ইমেজ-টু-টেক্সট জেনারেশন ক্ষমতাও প্রদর্শন করে।

BLIP-2 ফ্রেমওয়ার্ক
BLIP-2 এর কাঠামোর ওভারভিউ

লক্ষ্য কি? 

  • কম্পিউটেশন খরচ কমানোর সময় ভিশন ল্যাঙ্গুয়েজ টাস্কে অত্যাধুনিক পারফরম্যান্স পেতে।

কিভাবে সমস্যা যোগাযোগ করা হয়?

  • সেলসফোর্স টিম BLIP-2 নামে একটি নতুন দৃষ্টি-ভাষা প্রাক-প্রশিক্ষণ কাঠামো চালু করেছে, Bঅটস্ট্র্যাপিং Lভাষা-Iপুরোনো যাদুকর Pহিমায়িত ইউনিমোডাল মডেলগুলির সাথে পুনরায় প্রশিক্ষণ:
    • প্রাক-প্রশিক্ষিত ইউনিমোডাল মডেলগুলি প্রাক-প্রশিক্ষণের সময় হিমায়িত থাকে গণনার খরচ কমাতে এবং বিপর্যয়কর ভুলে যাওয়ার সমস্যা এড়াতে।
    • ক্রস-মডেল সারিবদ্ধকরণের সুবিধার্থে এবং প্রাক-প্রশিক্ষিত দৃষ্টি মডেল এবং প্রাক-প্রশিক্ষিত ভাষা মডেলগুলির মধ্যে পদ্ধতির ব্যবধান পূরণ করতে, দলটি একটি লাইটওয়েট কোয়েরিং ট্রান্সফরমার (কিউ-ফর্মার) প্রস্তাব করেছে যা হিমায়িত চিত্র এনকোডার এবং হিমায়িত এর মধ্যে তথ্যের বাধা হিসাবে কাজ করে। এলএলএম।
    • Q-প্রাক্তন একটি নতুন দুই-পর্যায়ের কৌশল সহ প্রাক-প্রশিক্ষিত:
      • প্রথম প্রাক-প্রশিক্ষণ পর্যায়টি দৃষ্টি-ভাষা উপস্থাপনা শেখার কাজ করে। এটি পাঠ্যের সাথে সবচেয়ে প্রাসঙ্গিক ভিজ্যুয়াল উপস্থাপনা শিখতে Q-Former কে জোর করে।
      • দ্বিতীয় প্রাক-প্রশিক্ষণ পর্যায়টি একটি হিমায়িত এলএলএম-এর সাথে কিউ-ফর্মারের আউটপুট সংযোগ করে দৃষ্টি-টু-ভাষা উৎপন্ন শিক্ষা সম্পাদন করে। কিউ-ফর্মারকে এমনভাবে প্রশিক্ষিত করা হয় যে এর আউটপুট ভিজ্যুয়াল উপস্থাপনা এলএলএম দ্বারা ব্যাখ্যা করা যেতে পারে।

ফলাফল কি?

  • BLIP-2 দৃষ্টি-ভাষা কার্যের বিভিন্ন জুড়ে ব্যতিক্রমী, অত্যাধুনিক ফলাফল প্রদান করে, ভিজ্যুয়াল প্রশ্নের উত্তর, চিত্র ক্যাপশন এবং চিত্র-টেক্সট পুনরুদ্ধার অন্তর্ভুক্ত।
    • উদাহরণস্বরূপ, এটি জিরো-শট VQAv8.7-তে ফ্ল্যামিঙ্গোকে 2% ছাড়িয়ে গেছে।
  • অধিকন্তু, এই অসামান্য কর্মক্ষমতা উল্লেখযোগ্যভাবে উচ্চতর কম্পিউটার দক্ষতার সাথে অর্জন করা হয়:
    • BLIP-2 80× কম প্রশিক্ষণযোগ্য প্যারামিটার ব্যবহার করার সময় Flamingo-54B-কে ছাড়িয়ে যায়। 
  • BLIP-2 এর প্রাকৃতিক ভাষা নির্দেশাবলীর প্রতিক্রিয়ায় জিরো-শট ইমেজ-টু-টেক্সট জেনারেশন করার ক্ষমতা রয়েছে, যার ফলে ভিজ্যুয়াল জ্ঞান যুক্তি এবং অন্যদের মধ্যে চাক্ষুষ কথোপকথনের মতো দক্ষতা বিকাশের পথ প্রশস্ত হয়।
  • পরিশেষে, এটি লক্ষ্য করা গুরুত্বপূর্ণ যে BLIP-2 হল একটি বহুমুখী পদ্ধতি যা দৃষ্টি-ভাষা প্রাক-প্রশিক্ষণের কর্মক্ষমতা আরও উন্নত করতে আরও পরিশীলিত ইউনিমোডাল মডেলগুলিকে কাজে লাগাতে পারে।
BLIP-2 ফলাফল
BLIP-2 ফলাফল

কোথায় এই গবেষণা সম্পর্কে আরও জানতে?

আপনি কোথায় প্রয়োগের কোড পেতে পারেন?

সরকারী BLIP-2 বাস্তবায়ন উপলব্ধ GitHub.

6. মেটা এআই দ্বারা LLaMA

সারাংশ 

মেটা এআই টিম দাবি করে যে আরও টোকেনগুলিতে প্রশিক্ষিত ছোট মডেলগুলিকে নির্দিষ্ট পণ্য অ্যাপ্লিকেশনগুলির জন্য পুনরায় প্রশিক্ষণ দেওয়া এবং সূক্ষ্ম সুর করা সহজ। অতএব, তারা পরিচয় করিয়ে দেয় এলএলএএমএ (Lআরজ Laভাষা Model মেটা AI), 7B থেকে 65B প্যারামিটার সহ মৌলিক ভাষার মডেলের একটি সংগ্রহ। LLaMA 33B এবং 65B 1.4 ট্রিলিয়ন টোকেনগুলিতে প্রশিক্ষিত হয়েছিল, যখন সবচেয়ে ছোট মডেল, LLaMA 7B, এক ট্রিলিয়ন টোকেনগুলিতে প্রশিক্ষিত হয়েছিল৷ মালিকানা বা সীমাবদ্ধ ডেটার উপর নির্ভর না করে তারা একচেটিয়াভাবে সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলি ব্যবহার করে। দলটি মূল স্থাপত্য বর্ধন এবং প্রশিক্ষণের গতি অপ্টিমাইজেশন কৌশলগুলিও প্রয়োগ করেছে। ফলস্বরূপ, LLaMA-13B 3 গুণের বেশি ছোট হওয়ায় GPT-10-কে ছাড়িয়ে গেছে এবং LLaMA-65B PaLM-540B-এর সাথে প্রতিযোগিতামূলক কর্মক্ষমতা প্রদর্শন করেছে।

লক্ষ্য কি? 

  • মালিকানা বা সীমাবদ্ধ ডেটা উত্সের উপর নির্ভর না করে শুধুমাত্র সর্বজনীনভাবে অ্যাক্সেসযোগ্য ডেটাসেটে সেরা-পারফর্মিং মডেলগুলিকে প্রশিক্ষণের সম্ভাব্যতা প্রদর্শনের জন্য।
  • গবেষণা সম্প্রদায়কে আরও ছোট এবং আরও পারফরম্যান্স মডেল সরবরাহ করতে এবং এইভাবে, যাদের প্রচুর পরিকাঠামোতে অ্যাক্সেস নেই তাদের বড় ভাষা মডেল অধ্যয়ন করতে সক্ষম করুন।

কিভাবে সমস্যা যোগাযোগ করা হয়?

  • LLaMA মডেলকে প্রশিক্ষণ দেওয়ার জন্য, গবেষকরা শুধুমাত্র এমন ডেটা ব্যবহার করেছেন যা সর্বজনীনভাবে উপলব্ধ, এবং ওপেন সোর্সিংয়ের সাথে সামঞ্জস্যপূর্ণ।
  • তারা স্ট্যান্ডার্ড ট্রান্সফরমার আর্কিটেকচারে কিছু উন্নতিও করেছে:
    • GPT-3 পদ্ধতি অবলম্বন করে, আউটপুট স্বাভাবিক করার পরিবর্তে প্রতিটি ট্রান্সফরমার সাব-লেয়ারের ইনপুট স্বাভাবিক করার মাধ্যমে প্রশিক্ষণের স্থায়িত্ব বৃদ্ধি করা হয়েছিল।
    • PaLM মডেলগুলি দ্বারা অনুপ্রাণিত হয়ে, গবেষকরা পারফরম্যান্স উন্নত করার জন্য, SwiGLU অ্যাক্টিভেশন ফাংশন দিয়ে ReLU নন-লিনিয়ারিটি প্রতিস্থাপন করেছেন।
    • দ্বারা অনুপ্রাণিত সু এট আল (2021), তারা নিখুঁত অবস্থানগত এম্বেডিংগুলিকে বাদ দিয়েছে এবং পরিবর্তে, নেটওয়ার্কের প্রতিটি স্তরে ঘূর্ণমান অবস্থানগত এম্বেডিং (RoPE) অন্তর্ভুক্ত করেছে।
  • অবশেষে, মেটা এআই দল তাদের মডেলের প্রশিক্ষণের গতি উন্নত করেছে:
    • মনোযোগের ওজন সংরক্ষণ না করে বা মুখোশযুক্ত কী/কোয়েরি স্কোর কম্পিউট না করে দক্ষ কার্যকারণ মাল্টি-হেড মনোযোগ বাস্তবায়ন ব্যবহার করা।
    • ব্যাকওয়ার্ড পাসের সময় পুনরায় গণনা করা অ্যাক্টিভেশন কমাতে চেকপয়েন্টিং ব্যবহার করা।
    • নেটওয়ার্কের মাধ্যমে সক্রিয়করণের গণনা এবং GPU-এর মধ্যে যোগাযোগের ওভারল্যাপিং (সকল_কমানোর অপারেশনের কারণে)।

ফলাফল কি?

  • LLaMA-13B 3 গুণের বেশি ছোট হওয়া সত্ত্বেও GPT-10কে ছাড়িয়ে গেছে, যখন LLaMA-65B এর নিজস্ব PaLM-540B এর বিপরীতে রয়েছে।

কোথায় এই গবেষণা সম্পর্কে আরও জানতে?

আপনি কোথায় প্রয়োগের কোড পেতে পারেন?

  • Meta AI একাডেমিক গবেষক, সরকার, সুশীল সমাজ, একাডেমিক প্রতিষ্ঠান এবং গ্লোবাল ইন্ডাস্ট্রি রিসার্চ ল্যাবগুলির সাথে যুক্ত ব্যক্তিদের পৃথক কেস মূল্যায়নের ভিত্তিতে LLaMA-তে অ্যাক্সেস প্রদান করে। আবেদন করতে, নিম্নলিখিত যান GitHub সংগ্রহস্থল.

7. OpenAI দ্বারা GPT-4

সারাংশ 

GPT-4 একটি বড় মাপের, মাল্টিমোডাল মডেল যা ইমেজ এবং টেক্সট ইনপুট গ্রহণ করে এবং টেক্সট আউটপুট তৈরি করে। প্রতিযোগিতামূলক এবং নিরাপত্তা উদ্বেগের কারণে, মডেলের স্থাপত্য এবং প্রশিক্ষণ সম্পর্কে নির্দিষ্ট বিবরণ আটকে রাখা হয়েছে। পারফরম্যান্সের ক্ষেত্রে, GPT-4 ঐতিহ্যগত মানদণ্ডে পূর্ববর্তী ভাষার মডেলগুলিকে ছাড়িয়ে গেছে এবং ব্যবহারকারীর অভিপ্রায় বোঝা এবং নিরাপত্তা বৈশিষ্ট্যগুলিতে উল্লেখযোগ্য উন্নতি দেখায়। মডেলটি বিভিন্ন পরীক্ষায় মানব-স্তরের কর্মক্ষমতা অর্জন করে, যার মধ্যে একটি সিমুলেটেড ইউনিফর্ম বার পরীক্ষায় শীর্ষ 10% স্কোর রয়েছে।

লক্ষ্য কি? 

  • একটি বড় আকারের, মাল্টিমোডাল মডেল তৈরি করতে যা চিত্র এবং পাঠ্য ইনপুট গ্রহণ করতে পারে এবং পাঠ্য আউটপুট তৈরি করতে পারে। 
  • অবকাঠামো এবং অপ্টিমাইজেশন পদ্ধতিগুলি বিকাশ করা যা বিস্তৃত স্কেল জুড়ে অনুমানযোগ্যভাবে আচরণ করে।

কিভাবে সমস্যা যোগাযোগ করা হয়?

  • প্রতিযোগিতামূলক ল্যান্ডস্কেপ এবং নিরাপত্তার প্রভাবের কারণে, ওপেনএআই স্থাপত্য, মডেলের আকার, হার্ডওয়্যার, প্রশিক্ষণ গণনা, ডেটাসেট নির্মাণ এবং প্রশিক্ষণের পদ্ধতির বিবরণ বন্ধ রাখার সিদ্ধান্ত নিয়েছে।
  • তারা প্রকাশ করে যে:
    • GPT-4 হল একটি ট্রান্সফরমার-ভিত্তিক মডেল, একটি নথিতে পরবর্তী টোকেনের পূর্বাভাস দেওয়ার জন্য প্রাক-প্রশিক্ষিত।
    • এটি সর্বজনীনভাবে উপলব্ধ ডেটা এবং তৃতীয় পক্ষের লাইসেন্সকৃত ডেটা ব্যবহার করে।
    • মডেলটি রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (RLHF) ব্যবহার করে সূক্ষ্ম সুর করা হয়েছে।
  • অপ্রমাণিত তথ্য থেকে জানা যায় যে GPT-4 তার পূর্বসূরীদের মত একটি একক ঘন মডেল নয়, বরং আটটি পৃথক মডেলের একটি পাওয়ার হাউস কোয়ালিশন, প্রতিটিতে 220 বিলিয়ন প্যারামিটার রয়েছে।
GPT-4 কর্মক্ষমতা

ফলাফল কি?

  • GPT-4 বেশিরভাগ পেশাদার এবং একাডেমিক পরীক্ষায় মানব-স্তরের পারফরম্যান্স অর্জন করে, উল্লেখযোগ্যভাবে একটি সিমুলেটেড ইউনিফর্ম বার পরীক্ষায় শীর্ষ 10% স্কোর করে।
  • প্রাক-প্রশিক্ষিত বেস GPT-4 মডেলটি বেঞ্চমার্ক-নির্দিষ্ট কারুকাজ বা অতিরিক্ত প্রশিক্ষণ প্রোটোকল ছাড়াই প্রচলিত এনএলপি বেঞ্চমার্কে বিদ্যমান ভাষা মডেল এবং পূর্বের অত্যাধুনিক সিস্টেমগুলিকে ছাড়িয়ে যায়।
  • ChatGPT এবং OpenAI API থেকে 4টি প্রম্পটের 3.5% মধ্যে GPT-70.2-এর প্রতিক্রিয়াগুলির তুলনায় GPT-5,214 এর প্রতিক্রিয়াগুলিকে প্রাধান্য দিয়ে GPT-XNUMX নিম্নলিখিত ব্যবহারকারীর অভিপ্রায়ে একটি উল্লেখযোগ্য উন্নতি দেখায়।
  • GPT-4-এর নিরাপত্তা বৈশিষ্ট্যগুলি GPT-3.5-এর তুলনায় উল্লেখযোগ্যভাবে উন্নত হয়েছে, অননুমোদিত বিষয়বস্তুর অনুরোধের প্রতিক্রিয়ায় 82% হ্রাস এবং সংবেদনশীল অনুরোধগুলির (যেমন, চিকিৎসা পরামর্শ এবং স্ব-ক্ষতি) নীতিগুলির সাথে সম্মতিতে 29% বৃদ্ধি পেয়েছে।

কোথায় এই গবেষণা সম্পর্কে আরও জানতে?

আপনি কোথায় প্রয়োগের কোড পেতে পারেন?

  • GPT-4 কোড বাস্তবায়ন উপলব্ধ নয়।

বড় (ভিশন) ভাষার মডেলের বাস্তব-বিশ্বের অ্যাপ্লিকেশন

সাম্প্রতিক বছরগুলির সবচেয়ে উল্লেখযোগ্য AI গবেষণা সাফল্যগুলি বিশাল ডেটাসেটে প্রশিক্ষণপ্রাপ্ত বড় AI মডেলগুলি থেকে এসেছে। এই মডেলগুলি চিত্তাকর্ষক কর্মক্ষমতা প্রদর্শন করে, এবং এটা ভাবতে চিত্তাকর্ষক যে কিভাবে AI সমগ্র শিল্পে বিপ্লব ঘটাতে পারে, যেমন গ্রাহক পরিষেবা, বিপণন, ই-কমার্স, স্বাস্থ্যসেবা, সফ্টওয়্যার উন্নয়ন, সাংবাদিকতা এবং আরও অনেক কিছু।

বৃহৎ ভাষার মডেলের অসংখ্য বাস্তব-বিশ্বের অ্যাপ্লিকেশন রয়েছে। GPT-4 নিম্নলিখিত তালিকা করে:

  • চ্যাটবট এবং ভার্চুয়াল সহকারীর জন্য প্রাকৃতিক ভাষা বোঝা এবং প্রজন্ম।
  • ভাষার মধ্যে মেশিন অনুবাদ।
  • নিবন্ধ, প্রতিবেদন, বা অন্যান্য পাঠ্য নথির সারসংক্ষেপ।
  • বাজার গবেষণা বা সামাজিক মিডিয়া নিরীক্ষণের জন্য অনুভূতি বিশ্লেষণ।
  • মার্কেটিং, সোশ্যাল মিডিয়া বা সৃজনশীল লেখার জন্য সামগ্রী তৈরি করা।
  • গ্রাহক সমর্থন বা জ্ঞান বেস জন্য প্রশ্ন-উত্তর সিস্টেম.
  • স্প্যাম ফিল্টারিং, বিষয় শ্রেণীকরণ, বা নথি সংগঠনের জন্য পাঠ্য শ্রেণীবিভাগ।
  • ব্যক্তিগতকৃত ভাষা শেখার এবং টিউটরিং টুল।
  • কোড জেনারেশন এবং সফটওয়্যার ডেভেলপমেন্ট সহায়তা।
  • চিকিৎসা, আইনি, এবং প্রযুক্তিগত নথি বিশ্লেষণ এবং সহায়তা।
  • অক্ষম ব্যক্তিদের জন্য অ্যাক্সেসিবিলিটি টুল, যেমন টেক্সট-টু-স্পিচ এবং স্পিচ-টু-টেক্সট রূপান্তর।
  • বক্তৃতা স্বীকৃতি এবং প্রতিলিপি পরিষেবা।

যদি আমরা একটি ভিজ্যুয়াল অংশ যোগ করি, সম্ভাব্য অ্যাপ্লিকেশনগুলির ক্ষেত্রগুলি আরও প্রসারিত হয়:

সাম্প্রতিক AI ব্রেকথ্রুগুলি অনুসরণ করা এবং তাদের সম্ভাব্য বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলি সম্পর্কে চিন্তা করা খুবই উত্তেজনাপূর্ণ। যাইহোক, বাস্তব জীবনে এই মডেলগুলি স্থাপন করার আগে আমাদের সংশ্লিষ্ট ঝুঁকি এবং সীমাবদ্ধতাগুলিকে মোকাবেলা করতে হবে, যা দুর্ভাগ্যবশত বেশ তাৎপর্যপূর্ণ।

ঝুঁকি এবং সীমাবদ্ধতা

আপনি যদি GPT-4 এর ঝুঁকি এবং সীমাবদ্ধতা সম্পর্কে জিজ্ঞাসা করেন, তাহলে সম্ভবত এটি আপনাকে প্রাসঙ্গিক উদ্বেগের একটি দীর্ঘ তালিকা প্রদান করবে। এই তালিকার মাধ্যমে ফিল্টার করার পরে এবং কিছু অতিরিক্ত বিবেচনা যোগ করার পরে, আমি আধুনিক বৃহৎ ভাষার মডেলগুলির দ্বারা আবিষ্ট প্রধান ঝুঁকি এবং সীমাবদ্ধতাগুলির নিম্নলিখিত সেটগুলির সাথে শেষ করেছি:

  1. পক্ষপাত ও বৈষম্য: এই মডেলগুলি প্রচুর পরিমাণে পাঠ্য ডেটা থেকে শেখে, যেগুলিতে প্রায়শই পক্ষপাত এবং বৈষম্যমূলক বিষয়বস্তু থাকে৷ ফলস্বরূপ, উত্পন্ন আউটপুটগুলি অসাবধানতাবশত স্টিরিওটাইপ, আপত্তিকর ভাষা এবং লিঙ্গ, জাতি বা ধর্মের মতো কারণের উপর ভিত্তি করে বৈষম্যকে স্থায়ী করতে পারে।
  2. ভুল তথ্য: বড় ভাষার মডেলগুলি এমন সামগ্রী তৈরি করতে পারে যা প্রকৃতপক্ষে ভুল, বিভ্রান্তিকর বা পুরানো৷ মডেলগুলিকে বিভিন্ন উৎসের উপর প্রশিক্ষণ দেওয়া হলেও, তারা সবসময় সবচেয়ে সঠিক বা আপ-টু-ডেট তথ্য নাও দিতে পারে। প্রায়শই এটি ঘটে কারণ মডেলটি এমন আউটপুটগুলিকে অগ্রাধিকার দেয় যা ব্যাকরণগতভাবে সঠিক বা সুসঙ্গত বলে মনে হয়, এমনকি যদি সেগুলি বিভ্রান্তিকর হয়।
  3. বোঝার অভাব: যদিও এই মডেলগুলি মানুষের ভাষা বুঝতে পারে বলে মনে হয়, তারা প্রাথমিকভাবে প্রশিক্ষণের ডেটাতে নিদর্শন এবং পরিসংখ্যানগত সংস্থানগুলি চিহ্নিত করে কাজ করে৷ তারা যে বিষয়বস্তু তৈরি করে সে সম্পর্কে তাদের গভীর ধারণা নেই, যা কখনও কখনও অযৌক্তিক বা অপ্রাসঙ্গিক আউটপুট হতে পারে।
  4. অনুপযুক্ত বিষয়বস্তু: ভাষার মডেলগুলি কখনও কখনও এমন সামগ্রী তৈরি করতে পারে যা আপত্তিকর, ক্ষতিকারক বা অনুপযুক্ত৷ যদিও এই ধরনের বিষয়বস্তু কমানোর জন্য প্রচেষ্টা করা হয়, এটি এখনও প্রশিক্ষণের ডেটার প্রকৃতি এবং প্রসঙ্গ বা ব্যবহারকারীর অভিপ্রায় বুঝতে মডেলদের অক্ষমতার কারণে ঘটতে পারে।

উপসংহার

বৃহৎ ভাষার মডেলগুলি নিঃসন্দেহে প্রাকৃতিক ভাষা প্রক্রিয়াকরণের ক্ষেত্রে বিপ্লব ঘটিয়েছে এবং বিভিন্ন ভূমিকা ও শিল্পে উৎপাদনশীলতা বৃদ্ধিতে অপার সম্ভাবনা প্রদর্শন করেছে। মানুষের মতো পাঠ্য তৈরি করার, জাগতিক কাজগুলিকে স্বয়ংক্রিয়ভাবে তৈরি করার এবং সৃজনশীল এবং বিশ্লেষণাত্মক প্রক্রিয়াগুলিতে সহায়তা প্রদান করার ক্ষমতা তাদের আজকের দ্রুত-গতির, প্রযুক্তি-চালিত বিশ্বে অপরিহার্য সরঞ্জাম করে তুলেছে।

যাইহোক, এই শক্তিশালী মডেলগুলির সাথে যুক্ত সীমাবদ্ধতা এবং ঝুঁকিগুলি স্বীকার করা এবং বোঝা অত্যন্ত গুরুত্বপূর্ণ। পক্ষপাতিত্ব, ভুল তথ্য এবং দূষিত ব্যবহারের সম্ভাবনার মতো সমস্যাগুলি উপেক্ষা করা যায় না৷ যেহেতু আমরা এই AI-চালিত প্রযুক্তিগুলিকে আমাদের দৈনন্দিন জীবনে সংহত করে চলেছি, বিশেষ করে সংবেদনশীল এবং উচ্চ-ঝুঁকিপূর্ণ পরিস্থিতিতে তাদের সক্ষমতা লাভ করা এবং মানুষের তত্ত্বাবধান নিশ্চিত করার মধ্যে একটি ভারসাম্য বজায় রাখা অপরিহার্য।

আমরা যদি জেনারেটিভ এআই প্রযুক্তিগুলিকে দায়িত্বের সাথে গ্রহণ করতে সফল হই, তাহলে আমরা একটি ভবিষ্যতের পথ প্রশস্ত করব যেখানে কৃত্রিম বুদ্ধিমত্তা এবং মানবিক দক্ষতা একসঙ্গে কাজ করে উদ্ভাবন চালাতে এবং সবার জন্য একটি উন্নত বিশ্ব তৈরি করে।

এই নিবন্ধটি উপভোগ করবেন? আরও এআই গবেষণা আপডেটের জন্য সাইন আপ করুন।

আমরা যখন এর মতো আরও সংক্ষিপ্ত নিবন্ধগুলি প্রকাশ করি তখন আমরা আপনাকে জানাব।

সময় স্ট্যাম্প:

থেকে আরো শীর্ষস্থানীয়