LLM الاستدلال على وحدات معالجة الرسومات (Intel)

أعاد نشره أفلاطون

المتابعون: 0

تم نشر ورقة فنية بعنوان "حل الاستدلال الفعال LLM على Intel GPU" من قبل باحثين في شركة Intel.

المستخلص:

"تم استخدام نماذج اللغات الكبيرة القائمة على المحولات (LLMs) على نطاق واسع في العديد من المجالات، وأصبحت كفاءة استدلال LLM موضوعًا ساخنًا في التطبيقات الحقيقية. ومع ذلك، عادةً ما يتم تصميم LLMs بشكل معقد في هيكل النموذج مع عمليات ضخمة وإجراء الاستدلال في وضع الانحدار التلقائي، مما يجعل تصميم نظام بكفاءة عالية مهمة صعبة.
في هذه الورقة، نقترح حلًا فعالاً لاستدلال LLM مع زمن وصول منخفض وإنتاجية عالية. أولاً، نقوم بتبسيط طبقة فك تشفير LLM من خلال دمج حركة البيانات والعمليات الحكيمة لتقليل تردد الوصول إلى الذاكرة وتقليل زمن وصول النظام. نقترح أيضًا سياسة ذاكرة التخزين المؤقت لقطعة KV للاحتفاظ بمفتاح/قيمة رموز الطلب والاستجابة في ذاكرة فعلية منفصلة لإدارة ذاكرة الجهاز بشكل فعال، مما يساعد على تكبير حجم دفعة وقت التشغيل وتحسين إنتاجية النظام. تم تصميم نواة Scaled-Dot-Product-Attention المخصصة لتتوافق مع سياسة الدمج الخاصة بنا استنادًا إلى حل ذاكرة التخزين المؤقت لقطاع KV. نحن ننفذ حل الاستدلال LLM الخاص بنا على Intel GPU وننشره للعامة. بالمقارنة مع تطبيق HuggingFace القياسي، يحقق الحل المقترح زمن وصول رمزي أقل بما يصل إلى 7x وإنتاجية أعلى بمقدار 27x لبعض حاملي شهادات LLM المشهورين على وحدة معالجة الرسومات Intel."

أعثر على ورقة فنية هنا. نُشرت في ديسمبر 2023 (نسخة ما قبل الطباعة).

وو، هوي، يي غان، فنغ يوان، جينغ ما، وي تشو، يوتاو شو، هونغ تشو، يوهوا تشو، شياولي ليو، وجينغوي غو. "حل استدلال LLM فعال على Intel GPU." arXiv طبعة أولية arXiv:2401.05391 (2023).

القراءة ذات الصلة
LLM الاستدلال على وحدات المعالجة المركزية (إنتل)
تم نشر ورقة فنية بعنوان "استدلال LLM الفعال على وحدات المعالجة المركزية" من قبل باحثين في شركة إنتل.
سباقات الذكاء الاصطناعي إلى الحافة
يتم دفع الاستدلال وبعض التدريب إلى الأجهزة الأصغر حجمًا مع انتشار الذكاء الاصطناعي إلى التطبيقات الجديدة.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
المصدر https://semiengineering.com/llm-inference-on-gpus-intel/

الطابع الزمني: 2 فبراير 2024

الطابع الزمني: يوليو 5، 2023

استدلال LLM على وحدات معالجة الرسومات (Intel)

أعاد نشره أفلاطون

المستخلص:

اكثر من شبه هندسة

من القالب الجيد المعروف إلى النظام الجيد المعروف باستخدام UCIe IP

أداة EDA للكشف عن ثغرات SW-HW لضمان سرية البيانات في بنية RISC-V

3 تطورات رئيسية في تكنولوجيا السيارات تستحق المشاهدة

خلايا FeFET متعددة المستويات للحوسبة داخل الذاكرة بدقة 28 نانومتر

تمت زراعة الليزر من III إلى V على منصة Si Photonics منقوشة مع اقتران الضوء بأدلة موجية سلبية من SiN

بت البحث: 24 يناير

الحوسبة الإجمالية للذراع: الهندسة لأحمال عمل الغد

حزمة BDD متعددة النواة المستندة إلى الفهرس مع إدارة الذاكرة الديناميكية وتقليل التجزئة

مراجعة طرق تصميم أنظمة حوسبة Memristor آمنة

كثافة منخفضة لذاكرة الوصول العشوائي LPDDR4x DRAM — الخيار الأفضل لـ Edge AI

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي