इंटेल कॉर्पोरेशन के शोधकर्ताओं द्वारा "इंटेल जीपीयू पर कुशल एलएलएम अनुमान समाधान" शीर्षक से एक तकनीकी पेपर प्रकाशित किया गया था।
सार:
“ट्रांसफॉर्मर आधारित बड़े भाषा मॉडल (एलएलएम) का कई क्षेत्रों में व्यापक रूप से उपयोग किया गया है, और एलएलएम अनुमान की दक्षता वास्तविक अनुप्रयोगों में गर्म विषय बन गई है। हालाँकि, एलएलएम आमतौर पर बड़े पैमाने पर संचालन के साथ मॉडल संरचना में जटिल रूप से डिज़ाइन किए जाते हैं और ऑटो-रिग्रेसिव मोड में अनुमान लगाते हैं, जिससे उच्च दक्षता वाले सिस्टम को डिजाइन करना एक चुनौतीपूर्ण कार्य हो जाता है।
इस पेपर में, हम कम विलंबता और उच्च थ्रूपुट के साथ एक कुशल एलएलएम अनुमान समाधान का प्रस्ताव करते हैं। सबसे पहले, हम मेमोरी एक्सेस फ़्रीक्वेंसी और कम सिस्टम विलंबता को कम करने के लिए डेटा मूवमेंट और तत्व-वार संचालन को फ़्यूज़ करके एलएलएम डिकोडर परत को सरल बनाते हैं। हम प्रभावी डिवाइस मेमोरी प्रबंधन के लिए अनुरोध और प्रतिक्रिया टोकन की कुंजी/मूल्य को अलग-अलग भौतिक मेमोरी में रखने के लिए एक सेगमेंट केवी कैश नीति का भी प्रस्ताव करते हैं, जिससे रनटाइम बैच आकार को बढ़ाने और सिस्टम थ्रूपुट में सुधार करने में मदद मिलती है। एक अनुकूलित स्केल्ड-डॉट-प्रोडक्ट-अटेंशन कर्नेल को सेगमेंट केवी कैश समाधान के आधार पर हमारी फ़्यूज़न नीति से मेल खाने के लिए डिज़ाइन किया गया है। हम अपने एलएलएम अनुमान समाधान को इंटेल जीपीयू पर लागू करते हैं और इसे सार्वजनिक रूप से प्रकाशित करते हैं। मानक हगिंगफेस कार्यान्वयन की तुलना में, प्रस्तावित समाधान इंटेल जीपीयू पर कुछ लोकप्रिय एलएलएम के लिए 7x कम टोकन विलंबता और 27x उच्च थ्रूपुट प्राप्त करता है।
खोज तकनीकी कागज यहाँ। दिसंबर 2023 (प्रीप्रिंट) प्रकाशित।
वू, हुई, यी गण, फेंग युआन, जिंग मा, वेई झू, युताओ जू, होंग झू, युहुआ झू, शियाओली लियू और जिंगहुई गु। "इंटेल जीपीयू पर कुशल एलएलएम अनुमान समाधान।" arXiv प्रीप्रिंट arXiv:2401.05391 (2023)।
संबंधित पढ़ना
सीपीयू पर एलएलएम अनुमान (इंटेल)
इंटेल के शोधकर्ताओं द्वारा "सीपीयू पर कुशल एलएलएम अनुमान" नामक एक तकनीकी पेपर प्रकाशित किया गया था।
एआई बढ़त की ओर दौड़ता है
जैसे-जैसे एआई नए अनुप्रयोगों में फैल रहा है, अनुमान और कुछ प्रशिक्षण को छोटे उपकरणों पर धकेला जा रहा है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://semiengineering.com/llm-inference-on-gpus-intel/
- :है
- $यूपी
- 2023
- a
- पहुँच
- प्राप्त
- AI
- भी
- an
- और
- अनुप्रयोगों
- हैं
- AS
- At
- आधारित
- हो जाता है
- किया गया
- जा रहा है
- by
- कैश
- चुनौतीपूर्ण
- तुलना
- निगम
- अनुकूलित
- तिथि
- दिसंबर
- डिज़ाइन
- बनाया गया
- युक्ति
- डिवाइस
- प्रभावी
- दक्षता
- कुशल
- विस्तार करना
- फ़ील्ड
- के लिए
- आवृत्ति
- फ्यूज़िंग
- संलयन
- GPU
- GPUs
- है
- मदद
- यहाँ उत्पन्न करें
- हाई
- उच्चतर
- हांग
- गरम
- तथापि
- HTTPS
- हगिंग फ़ेस
- लागू करने के
- कार्यान्वयन
- में सुधार
- in
- इंटेल
- IT
- जेपीजी
- रखना
- भाषा
- बड़ा
- विलंब
- परत
- एलएलएम
- निम्न
- कम
- निर्माण
- प्रबंध
- बहुत
- विशाल
- मैच
- याद
- मोड
- आदर्श
- मॉडल
- आंदोलन
- नया
- of
- on
- खुला
- संचालन
- हमारी
- काग़ज़
- निष्पादन
- भौतिक
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- नीति
- लोकप्रिय
- प्रस्ताव
- प्रस्तावित
- सार्वजनिक रूप से
- प्रकाशित करना
- प्रकाशित
- धकेल दिया
- दौड़
- वास्तविक
- को कम करने
- का अनुरोध
- शोधकर्ताओं
- प्रतिक्रिया
- खंड
- अलग
- को आसान बनाने में
- आकार
- छोटे
- समाधान
- कुछ
- स्प्रेड्स
- मानक
- संरचना
- प्रणाली
- कार्य
- तकनीकी
- RSI
- इसका
- THROUGHPUT
- शीर्षक से
- सेवा मेरे
- टोकन
- टोकन
- विषय
- प्रशिक्षण
- प्रयुक्त
- आमतौर पर
- था
- we
- व्यापक रूप से
- साथ में
- युआन
- जेफिरनेट