ইন্টেল কর্পোরেশনের গবেষকরা "ইন্টেল জিপিইউতে দক্ষ এলএলএম ইনফারেন্স সলিউশন" শিরোনামের একটি প্রযুক্তিগত গবেষণাপত্র প্রকাশ করেছেন।
সারাংশ:
"ট্রান্সফরমার ভিত্তিক লার্জ ল্যাঙ্গুয়েজ মডেলগুলি (LLMs) অনেক ক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হয়েছে, এবং LLM অনুমানের কার্যকারিতা বাস্তব অ্যাপ্লিকেশনগুলিতে আলোচিত বিষয় হয়ে উঠেছে৷ যাইহোক, এলএলএমগুলি সাধারণত বিশাল অপারেশন সহ মডেল কাঠামোতে জটিলভাবে ডিজাইন করা হয় এবং অটো-রিগ্রেসিভ মোডে অনুমান সম্পাদন করে, যার ফলে উচ্চ দক্ষতার সাথে একটি সিস্টেম ডিজাইন করা একটি চ্যালেঞ্জিং কাজ হয়ে ওঠে।
এই কাগজে, আমরা কম বিলম্বিতা এবং উচ্চ থ্রুপুট সহ একটি দক্ষ LLM অনুমান সমাধান প্রস্তাব করি। প্রথমত, আমরা মেমরি অ্যাক্সেস ফ্রিকোয়েন্সি এবং নিম্ন সিস্টেম লেটেন্সি কমাতে ডেটা মুভমেন্ট এবং উপাদান-ভিত্তিক ক্রিয়াকলাপগুলি ফিউজ করে LLM ডিকোডার স্তরটিকে সরল করি। আমরা একটি সেগমেন্ট কেভি ক্যাশে নীতির প্রস্তাবও করি যাতে অনুরোধের কী/মূল্য এবং প্রতিক্রিয়া টোকেনগুলি কার্যকর ডিভাইস মেমরি পরিচালনার জন্য আলাদা শারীরিক মেমরিতে রাখা যায়, যা রানটাইম ব্যাচের আকারকে বড় করতে এবং সিস্টেম থ্রুপুট উন্নত করতে সহায়তা করে। একটি কাস্টমাইজড স্কেল্ড-ডট-প্রোডাক্ট-অ্যাটেনশন কার্নেল কেভি ক্যাশে সলিউশনের সেগমেন্টের উপর ভিত্তি করে আমাদের ফিউশন নীতির সাথে মেলে ডিজাইন করা হয়েছে। আমরা আমাদের LLM অনুমান সমাধান Intel GPU-তে প্রয়োগ করি এবং সর্বজনীনভাবে প্রকাশ করি। স্ট্যান্ডার্ড HuggingFace বাস্তবায়নের সাথে তুলনা করে, প্রস্তাবিত সমাধানটি Intel GPU-তে কিছু জনপ্রিয় LLM-এর জন্য 7x কম টোকেন লেটেন্সি এবং 27x উচ্চতর থ্রুপুট অর্জন করে।"
খোঁজো এখানে প্রযুক্তিগত কাগজ। ডিসেম্বর 2023 প্রকাশিত (প্রিপ্রিন্ট)।
উ, হুই, ই গান, ফেং ইউয়ান, জিং মা, ওয়েই ঝু, ইউটাও জু, হং ঝু, ইউহুয়া ঝু, জিয়াওলি লিউ এবং জিংহুই গু। "ইন্টেল জিপিইউতে দক্ষ এলএলএম অনুমান সমাধান।" arXiv প্রিপ্রিন্ট arXiv:2401.05391 (2023)।
সম্পর্কিত পঠন
সিপিইউতে এলএলএম ইনফারেন্স (ইন্টেল)
ইন্টেলের গবেষকরা "সিপিইউতে দক্ষ এলএলএম ইনফারেন্স" শিরোনামের একটি প্রযুক্তিগত গবেষণাপত্র প্রকাশ করেছেন।
এআই রেস টু দ্য এজ
অনুমান এবং কিছু প্রশিক্ষণ ছোট ডিভাইসগুলিতে ঠেলে দেওয়া হচ্ছে কারণ এআই নতুন অ্যাপ্লিকেশনগুলিতে ছড়িয়ে পড়ে।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- উত্স: https://semiengineering.com/llm-inference-on-gpus-intel/
- : হয়
- $ ইউপি
- 2023
- a
- প্রবেশ
- জাতিসংঘের
- AI
- এছাড়াও
- an
- এবং
- অ্যাপ্লিকেশন
- রয়েছি
- AS
- At
- ভিত্তি
- হয়ে
- হয়েছে
- হচ্ছে
- by
- ক্যাশে
- চ্যালেঞ্জিং
- তুলনা
- কর্পোরেশন
- কাস্টমাইজড
- উপাত্ত
- ডিসেম্বর
- নকশা
- পরিকল্পিত
- যন্ত্র
- ডিভাইস
- কার্যকর
- দক্ষতা
- দক্ষ
- সম্প্রসারিত করা
- ক্ষেত্রসমূহ
- জন্য
- ফ্রিকোয়েন্সি
- ফিউজিং
- লয়
- জিপিইউ
- জিপিইউ
- আছে
- সাহায্য
- এখানে
- উচ্চ
- ঊর্ধ্বতন
- হংকং
- গরম
- যাহোক
- HTTPS দ্বারা
- জড়িয়ে আছে
- বাস্তবায়ন
- বাস্তবায়ন
- উন্নত করা
- in
- ইন্টেল
- IT
- JPG
- রাখা
- ভাষা
- বড়
- অদৃশ্যতা
- স্তর
- এলএলএম
- কম
- নিম্ন
- মেকিং
- ব্যবস্থাপনা
- অনেক
- বৃহদায়তন
- ম্যাচ
- স্মৃতি
- মোড
- মডেল
- মডেল
- আন্দোলন
- নতুন
- of
- on
- খোলা
- অপারেশনস
- আমাদের
- কাগজ
- সম্পাদন করা
- শারীরিক
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- নীতি
- জনপ্রিয়
- উত্থাপন করা
- প্রস্তাবিত
- প্রকাশ্যে
- প্রকাশ করা
- প্রকাশিত
- ধাক্কা
- ঘোড়দৌড়
- বাস্তব
- হ্রাস করা
- অনুরোধ
- গবেষকরা
- প্রতিক্রিয়া
- রেখাংশ
- আলাদা
- সহজতর করা
- আয়তন
- ক্ষুদ্রতর
- সমাধান
- কিছু
- স্প্রেড
- মান
- গঠন
- পদ্ধতি
- কার্য
- কারিগরী
- সার্জারির
- এই
- থ্রুপুট
- খেতাবধারী
- থেকে
- টোকেন
- টোকেন
- বিষয়
- প্রশিক্ষণ
- ব্যবহৃত
- সাধারণত
- ছিল
- we
- ব্যাপকভাবে
- সঙ্গে
- ইউয়ান
- zephyrnet