استدلال LLM على وحدات معالجة الرسومات (Intel)

استدلال LLM على وحدات معالجة الرسومات (Intel)

عقدة المصدر: 3095494

تم نشر ورقة فنية بعنوان "حل الاستدلال الفعال LLM على Intel GPU" من قبل باحثين في شركة Intel.

المستخلص:

"تم استخدام نماذج اللغات الكبيرة القائمة على المحولات (LLMs) على نطاق واسع في العديد من المجالات، وأصبحت كفاءة استدلال LLM موضوعًا ساخنًا في التطبيقات الحقيقية. ومع ذلك، عادةً ما يتم تصميم LLMs بشكل معقد في هيكل النموذج مع عمليات ضخمة وإجراء الاستدلال في وضع الانحدار التلقائي، مما يجعل تصميم نظام بكفاءة عالية مهمة صعبة.
في هذه الورقة، نقترح حلًا فعالاً لاستدلال LLM مع زمن وصول منخفض وإنتاجية عالية. أولاً، نقوم بتبسيط طبقة فك تشفير LLM من خلال دمج حركة البيانات والعمليات الحكيمة لتقليل تردد الوصول إلى الذاكرة وتقليل زمن وصول النظام. نقترح أيضًا سياسة ذاكرة التخزين المؤقت لقطعة KV للاحتفاظ بمفتاح/قيمة رموز الطلب والاستجابة في ذاكرة فعلية منفصلة لإدارة ذاكرة الجهاز بشكل فعال، مما يساعد على تكبير حجم دفعة وقت التشغيل وتحسين إنتاجية النظام. تم تصميم نواة Scaled-Dot-Product-Attention المخصصة لتتوافق مع سياسة الدمج الخاصة بنا استنادًا إلى حل ذاكرة التخزين المؤقت لقطاع KV. نحن ننفذ حل الاستدلال LLM الخاص بنا على Intel GPU وننشره للعامة. بالمقارنة مع تطبيق HuggingFace القياسي، يحقق الحل المقترح زمن وصول رمزي أقل بما يصل إلى 7x وإنتاجية أعلى بمقدار 27x لبعض حاملي شهادات LLM المشهورين على وحدة معالجة الرسومات Intel."

أعثر على ورقة فنية هنا. نُشرت في ديسمبر 2023 (نسخة ما قبل الطباعة).

وو، هوي، يي غان، فنغ يوان، جينغ ما، وي تشو، يوتاو شو، هونغ تشو، يوهوا تشو، شياولي ليو، وجينغوي غو. "حل استدلال LLM فعال على Intel GPU." arXiv طبعة أولية arXiv:2401.05391 (2023).

القراءة ذات الصلة
LLM الاستدلال على وحدات المعالجة المركزية (إنتل)
تم نشر ورقة فنية بعنوان "استدلال LLM الفعال على وحدات المعالجة المركزية" من قبل باحثين في شركة إنتل.
سباقات الذكاء الاصطناعي إلى الحافة
يتم دفع الاستدلال وبعض التدريب إلى الأجهزة الأصغر حجمًا مع انتشار الذكاء الاصطناعي إلى التطبيقات الجديدة.

الطابع الزمني:

اكثر من شبه هندسة