जीपीयू (इंटेल) पर एलएलएम अनुमान - प्लेटो एआईस्ट्रीम V2.1

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

इंटेल कॉर्पोरेशन के शोधकर्ताओं द्वारा "इंटेल जीपीयू पर कुशल एलएलएम अनुमान समाधान" शीर्षक से एक तकनीकी पेपर प्रकाशित किया गया था।

सार:

“ट्रांसफॉर्मर आधारित बड़े भाषा मॉडल (एलएलएम) का कई क्षेत्रों में व्यापक रूप से उपयोग किया गया है, और एलएलएम अनुमान की दक्षता वास्तविक अनुप्रयोगों में गर्म विषय बन गई है। हालाँकि, एलएलएम आमतौर पर बड़े पैमाने पर संचालन के साथ मॉडल संरचना में जटिल रूप से डिज़ाइन किए जाते हैं और ऑटो-रिग्रेसिव मोड में अनुमान लगाते हैं, जिससे उच्च दक्षता वाले सिस्टम को डिजाइन करना एक चुनौतीपूर्ण कार्य हो जाता है।
इस पेपर में, हम कम विलंबता और उच्च थ्रूपुट के साथ एक कुशल एलएलएम अनुमान समाधान का प्रस्ताव करते हैं। सबसे पहले, हम मेमोरी एक्सेस फ़्रीक्वेंसी और कम सिस्टम विलंबता को कम करने के लिए डेटा मूवमेंट और तत्व-वार संचालन को फ़्यूज़ करके एलएलएम डिकोडर परत को सरल बनाते हैं। हम प्रभावी डिवाइस मेमोरी प्रबंधन के लिए अनुरोध और प्रतिक्रिया टोकन की कुंजी/मूल्य को अलग-अलग भौतिक मेमोरी में रखने के लिए एक सेगमेंट केवी कैश नीति का भी प्रस्ताव करते हैं, जिससे रनटाइम बैच आकार को बढ़ाने और सिस्टम थ्रूपुट में सुधार करने में मदद मिलती है। एक अनुकूलित स्केल्ड-डॉट-प्रोडक्ट-अटेंशन कर्नेल को सेगमेंट केवी कैश समाधान के आधार पर हमारी फ़्यूज़न नीति से मेल खाने के लिए डिज़ाइन किया गया है। हम अपने एलएलएम अनुमान समाधान को इंटेल जीपीयू पर लागू करते हैं और इसे सार्वजनिक रूप से प्रकाशित करते हैं। मानक हगिंगफेस कार्यान्वयन की तुलना में, प्रस्तावित समाधान इंटेल जीपीयू पर कुछ लोकप्रिय एलएलएम के लिए 7x कम टोकन विलंबता और 27x उच्च थ्रूपुट प्राप्त करता है।

खोज तकनीकी कागज यहाँ। दिसंबर 2023 (प्रीप्रिंट) प्रकाशित।

वू, हुई, यी गण, फेंग युआन, जिंग मा, वेई झू, युताओ जू, होंग झू, युहुआ झू, शियाओली लियू और जिंगहुई गु। "इंटेल जीपीयू पर कुशल एलएलएम अनुमान समाधान।" arXiv प्रीप्रिंट arXiv:2401.05391 (2023)।

संबंधित पढ़ना
सीपीयू पर एलएलएम अनुमान (इंटेल)
इंटेल के शोधकर्ताओं द्वारा "सीपीयू पर कुशल एलएलएम अनुमान" नामक एक तकनीकी पेपर प्रकाशित किया गया था।
एआई बढ़त की ओर दौड़ता है
जैसे-जैसे एआई नए अनुप्रयोगों में फैल रहा है, अनुमान और कुछ प्रशिक्षण को छोटे उपकरणों पर धकेला जा रहा है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://semiengineering.com/llm-inference-on-gpus-intel/

समय टिकट: फ़रवरी 2, 2024

समय टिकट: जुलाई 5, 2023

जीपीयू पर एलएलएम अनुमान (इंटेल)

प्लेटो द्वारा पुनर्प्रकाशित

सार:

से अधिक अर्ध इंजीनियरिंग

ज्ञात गुड डाई से यूसीआईई आईपी के साथ ज्ञात गुड सिस्टम तक

3 प्रमुख मोटर वाहन प्रौद्योगिकी देखने के लिए आगे बढ़ती है

28nm में इन-मेमोरी कंप्यूटिंग के लिए FeFET मल्टी-लेवल सेल

निष्क्रिय SiN वेवगाइड में प्रकाश युग्मन के साथ एक पैटर्न वाले Si फोटोनिक्स प्लेटफ़ॉर्म पर विकसित III-V लेज़र

रिसर्च बिट्स: जनवरी 24

आर्म टोटल कंप्यूट: कल के कार्यभार के लिए इंजीनियरिंग

डायनेमिक मेमोरी प्रबंधन और कम विखंडन के साथ इंडेक्स-आधारित मल्टी-कोर बीडीडी पैकेज

सुरक्षित मेमिस्टर कम्प्यूटिंग सिस्टम डिजाइन करने के तरीकों की समीक्षा

LPDDR4x DRAM का कम घनत्व - एज AI के लिए सबसे अच्छा विकल्प

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा