जीपीयू पर एलएलएम अनुमान (इंटेल)

जीपीयू पर एलएलएम अनुमान (इंटेल)

स्रोत नोड: 3095494

इंटेल कॉर्पोरेशन के शोधकर्ताओं द्वारा "इंटेल जीपीयू पर कुशल एलएलएम अनुमान समाधान" शीर्षक से एक तकनीकी पेपर प्रकाशित किया गया था।

सार:

“ट्रांसफॉर्मर आधारित बड़े भाषा मॉडल (एलएलएम) का कई क्षेत्रों में व्यापक रूप से उपयोग किया गया है, और एलएलएम अनुमान की दक्षता वास्तविक अनुप्रयोगों में गर्म विषय बन गई है। हालाँकि, एलएलएम आमतौर पर बड़े पैमाने पर संचालन के साथ मॉडल संरचना में जटिल रूप से डिज़ाइन किए जाते हैं और ऑटो-रिग्रेसिव मोड में अनुमान लगाते हैं, जिससे उच्च दक्षता वाले सिस्टम को डिजाइन करना एक चुनौतीपूर्ण कार्य हो जाता है।
इस पेपर में, हम कम विलंबता और उच्च थ्रूपुट के साथ एक कुशल एलएलएम अनुमान समाधान का प्रस्ताव करते हैं। सबसे पहले, हम मेमोरी एक्सेस फ़्रीक्वेंसी और कम सिस्टम विलंबता को कम करने के लिए डेटा मूवमेंट और तत्व-वार संचालन को फ़्यूज़ करके एलएलएम डिकोडर परत को सरल बनाते हैं। हम प्रभावी डिवाइस मेमोरी प्रबंधन के लिए अनुरोध और प्रतिक्रिया टोकन की कुंजी/मूल्य को अलग-अलग भौतिक मेमोरी में रखने के लिए एक सेगमेंट केवी कैश नीति का भी प्रस्ताव करते हैं, जिससे रनटाइम बैच आकार को बढ़ाने और सिस्टम थ्रूपुट में सुधार करने में मदद मिलती है। एक अनुकूलित स्केल्ड-डॉट-प्रोडक्ट-अटेंशन कर्नेल को सेगमेंट केवी कैश समाधान के आधार पर हमारी फ़्यूज़न नीति से मेल खाने के लिए डिज़ाइन किया गया है। हम अपने एलएलएम अनुमान समाधान को इंटेल जीपीयू पर लागू करते हैं और इसे सार्वजनिक रूप से प्रकाशित करते हैं। मानक हगिंगफेस कार्यान्वयन की तुलना में, प्रस्तावित समाधान इंटेल जीपीयू पर कुछ लोकप्रिय एलएलएम के लिए 7x कम टोकन विलंबता और 27x उच्च थ्रूपुट प्राप्त करता है।

खोज तकनीकी कागज यहाँ। दिसंबर 2023 (प्रीप्रिंट) प्रकाशित।

वू, हुई, यी गण, फेंग युआन, जिंग मा, वेई झू, युताओ जू, होंग झू, युहुआ झू, शियाओली लियू और जिंगहुई गु। "इंटेल जीपीयू पर कुशल एलएलएम अनुमान समाधान।" arXiv प्रीप्रिंट arXiv:2401.05391 (2023)।

संबंधित पढ़ना
सीपीयू पर एलएलएम अनुमान (इंटेल)
इंटेल के शोधकर्ताओं द्वारा "सीपीयू पर कुशल एलएलएम अनुमान" नामक एक तकनीकी पेपर प्रकाशित किया गया था।
एआई बढ़त की ओर दौड़ता है
जैसे-जैसे एआई नए अनुप्रयोगों में फैल रहा है, अनुमान और कुछ प्रशिक्षण को छोटे उपकरणों पर धकेला जा रहा है।

समय टिकट:

से अधिक अर्ध इंजीनियरिंग

आरआईएससी-वी आर्किटेक्चर में डेटा गोपनीयता सुनिश्चित करने के लिए एसडब्ल्यू-एचडब्ल्यू कमजोरियों का पता लगाने के लिए ईडीए उपकरण

स्रोत नोड: 2830252
समय टिकट: अगस्त 18, 2023