জিপিইউতে এলএলএম ইনফারেন্স (ইন্টেল)

জিপিইউতে এলএলএম ইনফারেন্স (ইন্টেল)

উত্স নোড: 3095494

ইন্টেল কর্পোরেশনের গবেষকরা "ইন্টেল জিপিইউতে দক্ষ এলএলএম ইনফারেন্স সলিউশন" শিরোনামের একটি প্রযুক্তিগত গবেষণাপত্র প্রকাশ করেছেন।

সারাংশ:

"ট্রান্সফরমার ভিত্তিক লার্জ ল্যাঙ্গুয়েজ মডেলগুলি (LLMs) অনেক ক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হয়েছে, এবং LLM অনুমানের কার্যকারিতা বাস্তব অ্যাপ্লিকেশনগুলিতে আলোচিত বিষয় হয়ে উঠেছে৷ যাইহোক, এলএলএমগুলি সাধারণত বিশাল অপারেশন সহ মডেল কাঠামোতে জটিলভাবে ডিজাইন করা হয় এবং অটো-রিগ্রেসিভ মোডে অনুমান সম্পাদন করে, যার ফলে উচ্চ দক্ষতার সাথে একটি সিস্টেম ডিজাইন করা একটি চ্যালেঞ্জিং কাজ হয়ে ওঠে।
এই কাগজে, আমরা কম বিলম্বিতা এবং উচ্চ থ্রুপুট সহ একটি দক্ষ LLM অনুমান সমাধান প্রস্তাব করি। প্রথমত, আমরা মেমরি অ্যাক্সেস ফ্রিকোয়েন্সি এবং নিম্ন সিস্টেম লেটেন্সি কমাতে ডেটা মুভমেন্ট এবং উপাদান-ভিত্তিক ক্রিয়াকলাপগুলি ফিউজ করে LLM ডিকোডার স্তরটিকে সরল করি। আমরা একটি সেগমেন্ট কেভি ক্যাশে নীতির প্রস্তাবও করি যাতে অনুরোধের কী/মূল্য এবং প্রতিক্রিয়া টোকেনগুলি কার্যকর ডিভাইস মেমরি পরিচালনার জন্য আলাদা শারীরিক মেমরিতে রাখা যায়, যা রানটাইম ব্যাচের আকারকে বড় করতে এবং সিস্টেম থ্রুপুট উন্নত করতে সহায়তা করে। একটি কাস্টমাইজড স্কেল্ড-ডট-প্রোডাক্ট-অ্যাটেনশন কার্নেল কেভি ক্যাশে সলিউশনের সেগমেন্টের উপর ভিত্তি করে আমাদের ফিউশন নীতির সাথে মেলে ডিজাইন করা হয়েছে। আমরা আমাদের LLM অনুমান সমাধান Intel GPU-তে প্রয়োগ করি এবং সর্বজনীনভাবে প্রকাশ করি। স্ট্যান্ডার্ড HuggingFace বাস্তবায়নের সাথে তুলনা করে, প্রস্তাবিত সমাধানটি Intel GPU-তে কিছু জনপ্রিয় LLM-এর জন্য 7x কম টোকেন লেটেন্সি এবং 27x উচ্চতর থ্রুপুট অর্জন করে।"

খোঁজো এখানে প্রযুক্তিগত কাগজ। ডিসেম্বর 2023 প্রকাশিত (প্রিপ্রিন্ট)।

উ, হুই, ই গান, ফেং ইউয়ান, জিং মা, ওয়েই ঝু, ইউটাও জু, হং ঝু, ইউহুয়া ঝু, জিয়াওলি লিউ এবং জিংহুই গু। "ইন্টেল জিপিইউতে দক্ষ এলএলএম অনুমান সমাধান।" arXiv প্রিপ্রিন্ট arXiv:2401.05391 (2023)।

সম্পর্কিত পঠন
সিপিইউতে এলএলএম ইনফারেন্স (ইন্টেল)
ইন্টেলের গবেষকরা "সিপিইউতে দক্ষ এলএলএম ইনফারেন্স" শিরোনামের একটি প্রযুক্তিগত গবেষণাপত্র প্রকাশ করেছেন।
এআই রেস টু দ্য এজ
অনুমান এবং কিছু প্রশিক্ষণ ছোট ডিভাইসগুলিতে ঠেলে দেওয়া হচ্ছে কারণ এআই নতুন অ্যাপ্লিকেশনগুলিতে ছড়িয়ে পড়ে।

সময় স্ট্যাম্প:

থেকে আরো সেমি ইঞ্জিনিয়ারিং