प्राकृतिक भाषा प्रसंस्करण में 2x प्रशिक्षण गति के लिए पैक्ड BERT का परिचय

स्रोत नोड: 1062065

प्राकृतिक भाषा प्रसंस्करण में 2x प्रशिक्षण गति के लिए पैक्ड BERT का परिचय

अधिक कुशल प्रशिक्षण के लिए इस नए BERT पैकिंग एल्गोरिदम को देखें।


By डॉ. मारियो माइकल क्रेल, ग्राफकोर में प्रिंसिपल मशीन लर्निंग लीड और मतेज कोसेक, ग्राफकोर में एआई एप्लीकेशन विशेषज्ञ


प्रवेशिका प्रतिमा
लेखक द्वारा छवि।

 

एक नए पैकिंग एल्गोरिदम का उपयोग करके, हमने BERT-Large को प्रशिक्षित करते समय प्राकृतिक भाषा प्रसंस्करण को 2 गुना से अधिक बढ़ा दिया है। हमारी नई पैकिंग तकनीक पैडिंग को हटा देती है, जिससे काफी अधिक कुशल गणना संभव हो जाती है।

हमें संदेह है कि इसे विभिन्न उद्योगों और अनुप्रयोगों में अधिक व्यापक प्रभाव डालने के लिए जीनोमिक्स और प्रोटीन फोल्डिंग मॉडल और विषम लंबाई वितरण वाले अन्य मॉडलों पर भी लागू किया जा सकता है।

हमने ग्राफकोर के अत्यधिक कुशल गैर-नकारात्मक न्यूनतम वर्ग हिस्टोग्राम-पैकिंग एल्गोरिदम (या एनएनएलएसएचपी) के साथ-साथ हमारे बीईआरटी एल्गोरिदम को एक नए पेपर में पैक किए गए अनुक्रमों पर लागू किया है [1]।

अनुक्रम पैडिंग के कारण एनएलपी में कम्प्यूटेशनल अपशिष्ट

 
 
हमने अपने हाल ही में काम करते हुए बीईआरटी प्रशिक्षण को अनुकूलित करने के नए तरीकों की जांच शुरू की MLPerf™ के लिए बेंचमार्क सबमिशन. लक्ष्य उपयोगी अनुकूलन विकसित करना था जिसे वास्तविक दुनिया के अनुप्रयोगों में आसानी से अपनाया जा सके। इन अनुकूलनों पर ध्यान केंद्रित करने के लिए मॉडलों में से एक के रूप में BERT एक स्वाभाविक पसंद थी, क्योंकि इसका उद्योग में और हमारे कई ग्राहकों द्वारा व्यापक रूप से उपयोग किया जाता है।

हमें यह जानकर वास्तव में आश्चर्य हुआ कि विकिपीडिया डेटासेट का उपयोग करने वाले हमारे स्वयं के BERT-बड़े प्रशिक्षण एप्लिकेशन में, डेटासेट में 50% टोकन पैडिंग थे - जिसके परिणामस्वरूप बहुत सारी गणना बर्बाद हो गई।

उन सभी को समान लंबाई में संरेखित करने के लिए पैडिंग अनुक्रम जीपीयू के साथ उपयोग किया जाने वाला एक सामान्य दृष्टिकोण है, लेकिन हमने सोचा कि एक अलग दृष्टिकोण आज़माना उचित होगा।

अनुक्रमों की लंबाई में दो कारणों से बड़ी भिन्नता होती है:

  1. अंतर्निहित विकिपीडिया डेटा दस्तावेज़ की लंबाई में बड़ी भिन्नता दिखाता है
  2. बीईआरटी-प्री-प्रोसेसिंग स्वयं निकाले गए दस्तावेज़ों के आकार को यादृच्छिक रूप से कम कर देती है जिन्हें एक प्रशिक्षण अनुक्रम उत्पन्न करने के लिए संयोजित किया जाता है

लंबाई को 512 की अधिकतम लंबाई तक भरने पर सभी टोकन का 50% पैडिंग टोकन हो जाता है। 50% पैडिंग को वास्तविक डेटा से बदलने से समान कम्प्यूटेशनल प्रयास के साथ 50% अधिक डेटा संसाधित हो सकता है और इस प्रकार इष्टतम परिस्थितियों में 2 गुना गति बढ़ सकती है।



चित्र 1: विकिपीडिया डेटासेट वितरण। लेखक द्वारा छवि.

 

क्या यह विकिपीडिया के लिए विशिष्ट है? नहीं।

अच्छा, तो क्या यह भाषा के लिए विशिष्ट है? नहीं।

वास्तव में, तिरछी लंबाई का वितरण हर जगह पाया जाता है: भाषा, जीनोमिक्स और प्रोटीन फोल्डिंग में। चित्र 2 और 3 SQuAD 1.1 डेटासेट और GLUE डेटासेट के लिए वितरण दिखाते हैं।



चित्र 2: 1.1 की अधिकतम अनुक्रम लंबाई के लिए SQuAD 384 BERT पूर्व-प्रशिक्षण डेटासेट अनुक्रम लंबाई हिस्टोग्राम। लेखक द्वारा छवि।

 


चित्र 3: 128 की अधिकतम अनुक्रम लंबाई के लिए GLUE डेटासेट अनुक्रम लंबाई हिस्टोग्राम। लेखक द्वारा छवि।

 

कम्प्यूटेशनल बर्बादी से बचते हुए हम विभिन्न लंबाई को कैसे संभाल सकते हैं?

वर्तमान दृष्टिकोणों के लिए अलग-अलग लंबाई के लिए अलग-अलग कम्प्यूटेशनल कर्नेल की आवश्यकता होती है या इंजीनियर को पैडिंग को प्रोग्रामेटिक रूप से हटाने और फिर प्रत्येक ध्यान ब्लॉक और हानि गणना के लिए इसे बार-बार जोड़ने की आवश्यकता होती है। कोड को उड़ाकर और इसे अधिक जटिल बनाकर गणना को सहेजना आकर्षक नहीं था, इसलिए हमने कुछ बेहतर खोजा। क्या हम अधिकतम लंबाई वाले पैक में कई अनुक्रमों को एक साथ नहीं रख सकते हैं और सभी को एक साथ संसाधित नहीं कर सकते हैं? यह पता चला, हम कर सकते हैं!

इस दृष्टिकोण के लिए तीन प्रमुख सामग्रियों की आवश्यकता है:

  1. यह तय करने के लिए एक कुशल एल्गोरिदम कि कौन से नमूने एक साथ रखे जाएं ताकि यथासंभव कम पैडिंग बची रहे
  2. अनुक्रमों के बजाय पैक्स को संसाधित करने के लिए BERT मॉडल को समायोजित करना
  3. और हाइपरपैरामीटर को समायोजित करना

पैकिंग

 
 
पहले तो ऐसा नहीं लगता था कि आप विकिपीडिया जैसे बड़े डेटासेट को बहुत कुशलता से पैक कर पाएंगे। इस समस्या को आमतौर पर बिन-पैकिंग के नाम से जाना जाता है। यहां तक ​​कि जब पैकिंग तीन अनुक्रमों या उससे कम तक सीमित होती है, तो परिणामी समस्या अभी भी दृढ़ता से एनपी-पूर्ण होगी, जिसमें एक कुशल एल्गोरिथम समाधान का अभाव होगा। मौजूदा अनुमान पैकिंग एल्गोरिदम आशाजनक नहीं थे क्योंकि उनमें कम से कम जटिलता थी O(एन लॉग(n)), कहाँ n अनुक्रमों की संख्या है (विकिपीडिया के लिए ~16एम)। हम उन दृष्टिकोणों में रुचि रखते थे जो लाखों अनुक्रमों को अच्छी तरह से स्केल कर सकें।

दो तरकीबों ने हमें जटिलता को काफी हद तक कम करने में मदद की:

  1. एक पैक में अनुक्रमों की संख्या को तीन तक सीमित करना (हमारे पहले समाधान दृष्टिकोण के लिए)
  2. प्रत्येक घटित लंबाई के लिए एक बिन के साथ अनुक्रम लंबाई के हिस्टोग्राम पर पूरी तरह से काम करना

हमारी अधिकतम अनुक्रम लंबाई 512 थी। इसलिए, हिस्टोग्राम पर जाने से आयाम और जटिलता 16 मिलियन अनुक्रमों से घटकर 512 लंबाई गणना हो गई। एक पैक में अधिकतम तीन अनुक्रमों की अनुमति देने से अनुमत लंबाई संयोजनों की संख्या 22K तक कम हो गई। इसमें अनुक्रमों को पैक में लंबाई के अनुसार क्रमबद्ध करने की युक्ति पहले से ही शामिल थी। तो क्यों न 4 अनुक्रमों का प्रयास किया जाए? इससे संयोजनों की संख्या 22K से बढ़कर 940K हो गई, जो हमारे पहले मॉडलिंग दृष्टिकोण के लिए बहुत अधिक थी। इसके अतिरिक्त, डेप्थ 3 ने पहले ही उल्लेखनीय रूप से उच्च पैकिंग दक्षता हासिल कर ली है।

मूल रूप से, हमने सोचा था कि एक पैक में तीन से अधिक अनुक्रमों का उपयोग करने से कम्प्यूटेशनल ओवरहेड में वृद्धि होगी और प्रशिक्षण के दौरान अभिसरण व्यवहार पर प्रभाव पड़ेगा। हालाँकि, अनुमान जैसे अनुप्रयोगों का समर्थन करने के लिए, जिसके लिए और भी तेज़, वास्तविक समय पैकिंग की आवश्यकता होती है, हमने अत्यधिक कुशल गैर-नकारात्मक न्यूनतम वर्ग हिस्टोग्राम-पैकिंग (एनएनएलएसएचपी) एल्गोरिदम विकसित किया है।

गैर-नकारात्मक न्यूनतम वर्ग हिस्टोग्राम-पैकिंग (एनएनएलएसएचपी)

 
 
बिन पैकिंग को अक्सर गणितीय अनुकूलन समस्या के रूप में तैयार किया जाता है। हालाँकि, 16 मिलियन अनुक्रमों (या अधिक) के साथ यह व्यावहारिक नहीं है। अकेले समस्या चर अधिकांश मशीनों की मेमोरी से अधिक होंगे। हिस्टोग्राम-आधारित दृष्टिकोण के लिए गणितीय कार्यक्रम काफी साफ-सुथरा है। सरलता के लिए, हमने न्यूनतम वर्ग दृष्टिकोण का निर्णय लिया (कुल्हाड़ी=बी) हिस्टोग्राम वेक्टर के साथ b. हमने रणनीति वेक्टर का अनुरोध करके इसे बढ़ाया x गैर-नकारात्मक होना और मामूली पैडिंग की अनुमति देने के लिए वजन जोड़ना।

मुश्किल हिस्सा रणनीति मैट्रिक्स था। प्रत्येक कॉलम में अधिकतम तीन का योग होता है और यह एनकोड करता है कि कौन से अनुक्रम वांछित कुल लंबाई से बिल्कुल मेल खाने के लिए एक साथ पैक हो जाते हैं; हमारे मामले में 512. पंक्तियाँ कुल लंबाई की लंबाई तक पहुंचने के लिए प्रत्येक संभावित संयोजन को एन्कोड करती हैं। रणनीति वेक्टर x हम यही खोज रहे थे, जो बताता है कि हम कितनी बार 20k संयोजनों में से किसी एक को चुनते हैं। दिलचस्प बात यह है कि अंत में केवल लगभग 600 संयोजनों का चयन किया गया। सटीक समाधान पाने के लिए रणनीति मायने रखती है x धनात्मक पूर्णांक होना चाहिए, लेकिन हमें एहसास हुआ कि केवल गैर-ऋणात्मक के साथ एक अनुमानित गोल समाधान x पर्याप्त था. अनुमानित समाधान के लिए, 30 सेकंड के भीतर परिणाम प्राप्त करने के लिए एक सरल आउट-ऑफ़-द-बॉक्स सॉल्वर का उपयोग किया जा सकता है।



चित्र 4: अनुक्रम लंबाई 8 और पैकिंग गहराई 3 के लिए एक रणनीति मैट्रिक्स का उदाहरण। पंक्तियाँ लंबाई 1-8 के अनुक्रमों के लिए हैं जो एक साथ पैक हो जाते हैं और कॉलम बिना किसी विशेष क्रम के एक पैक में सभी संभावित लंबाई संयोजनों के लिए खड़े होते हैं। लेखक द्वारा छवि.

 

अंत में, हमें कुछ नमूनों को ठीक करना पड़ा जिनके लिए कोई रणनीति नहीं दी गई थी लेकिन वे न्यूनतम थे। हमने एक वैरिएंट सॉल्वर भी विकसित किया है जो यह लागू करता है कि प्रत्येक अनुक्रम संभावित रूप से पैडिंग के साथ पैक हो जाता है, और पैडिंग पर एक भार निर्भर होता है। इसमें अधिक समय लगा और समाधान भी अधिक बेहतर नहीं था।

सबसे छोटा-पैक-प्रथम हिस्टोग्राम पैकिंग

 
 
एनएनएलएसएचपी ने हमारे लिए पर्याप्त पैकिंग दृष्टिकोण प्रदान किया। हालाँकि, हम सोच रहे थे कि क्या हम सैद्धांतिक रूप से एक तेज़ ऑनलाइन सक्षम दृष्टिकोण प्राप्त कर सकते हैं और केवल 3 अनुक्रमों को एक साथ रखने की सीमा को हटा सकते हैं।

इसलिए, हमने मौजूदा पैकिंग एल्गोरिदम से कुछ प्रेरणा ली लेकिन फिर भी हिस्टोग्राम पर ध्यान केंद्रित किया।

हमारे पहले एल्गोरिदम, शॉर्टेस्ट-पैक-फर्स्ट हिस्टोग्राम-पैकिंग (एसपीएफएचपी) के लिए चार सामग्रियां हैं:

  1. सबसे लंबे अनुक्रमों से लेकर सबसे छोटे अनुक्रमों तक हिस्टोग्राम की गिनती पर काम करें
  2. यदि वर्तमान अनुक्रम लंबाई किसी भी पैक में फिट नहीं होती है, तो पैक का एक नया सेट शुरू करें
  3. यदि कई फिट हैं, तो वह पैक लें जहां अनुक्रम लंबाई का योग सबसे कम हो और क्रमशः गिनती को संशोधित करें
  4. शेष गिनती के फिट के लिए फिर से जाँच करें

यह दृष्टिकोण लागू करने में सबसे सरल था और इसमें केवल 0.02 सेकंड लगे।

एक प्रकार यह था कि अधिक सटीक फिट प्राप्त करने के लिए सबसे छोटी और विभाजित गणनाओं के बजाय अनुक्रम लंबाई का सबसे बड़ा योग लिया जाए। कुल मिलाकर, इससे दक्षता में बहुत अधिक परिवर्तन नहीं आया लेकिन कोड जटिलता बहुत बढ़ गई।



सबसे छोटा-पैक-प्रथम हिस्टोग्राम पैकिंग कैसे काम करती है। लेखक द्वारा एनीमेशन.

 

विकिपीडिया, SQuAD 1.1, GLUE पैकिंग परिणाम

 
 
तालिका 1, 2 और 3 हमारे दो प्रस्तावित एल्गोरिदम के पैकिंग परिणाम दिखाते हैं। पैकिंग की गहराई पैक्ड अनुक्रमों की अधिकतम संख्या का वर्णन करता है। पैकिंग गहराई 1 आधारभूत BERT कार्यान्वयन है। अधिकतम होने वाली पैकिंग गहराई, जब कोई सीमा निर्धारित नहीं होती है, को अतिरिक्त "अधिकतम" के साथ दर्शाया जाता है। पैक्स की संख्या नए पैक किए गए डेटासेट की लंबाई का वर्णन करता है। दक्षता पैक्ड डेटासेट में वास्तविक टोकन का प्रतिशत है। पैकिंग कारक पैकिंग गहराई 1 की तुलना में परिणामी संभावित गति का वर्णन करता है।

हमारी चार मुख्य टिप्पणियाँ थीं:

  1. वितरण जितना अधिक विषम होगा, पैकिंग के लाभ उतने ही अधिक होंगे।
  2. पैकिंग से सभी डेटासेट को लाभ होता है। कुछ तो 2 के गुणक से भी अधिक।
  3. जब पैकिंग की गहराई सीमित नहीं होती तो SPFHP अधिक कुशल हो जाता है।
  4. अधिकतम 3 पैक अनुक्रमों के लिए, एनएनएलएसएचपी जितना अधिक जटिल होगा, उतना ही अधिक कुशल होगा (99.75 बनाम 89.44)।



तालिका 1: विकिपीडिया पर प्रस्तावित पैकिंग एल्गोरिदम (एसपीएफएचपी और एनएनएलएसएचपी) के मुख्य प्रदर्शन परिणाम। लेखक द्वारा छवि.

 


तालिका 2: SQUaD 1.1 BERT पूर्व-प्रशिक्षण के लिए प्रस्तावित पैकिंग एल्गोरिदम के प्रदर्शन परिणाम। लेखक द्वारा छवि.

 


तालिका 3: GLUE डेटासेट के लिए प्रस्तावित पैकिंग एल्गोरिदम के प्रदर्शन परिणाम। पैकिंग की गहराई को सीमित किए बिना केवल बेसलाइन और एसपीएफ़एचपी पैकिंग परिणाम प्रदर्शित किए जाते हैं। लेखक द्वारा छवि.

 

BERT प्रसंस्करण समायोजन

 
 
BERT आर्किटेक्चर के बारे में दिलचस्प बात यह है कि अधिकांश प्रसंस्करण टोकन स्तर पर होता है, जिसका अर्थ है कि यह हमारी पैकिंग में हस्तक्षेप नहीं करता है। केवल चार घटक हैं जिन्हें समायोजन की आवश्यकता है: ध्यान मास्क, एमएलएम हानि, एनएसपी हानि और सटीकता।

अनुक्रमों की विभिन्न संख्याओं को संभालने के लिए सभी चार दृष्टिकोणों की कुंजी वेक्टरीकरण और अनुक्रमों की अधिकतम संख्या का उपयोग करना था जिन्हें संयोजित किया जा सकता है। ध्यान देने के लिए, हमारे पास पैडिंग को संबोधित करने के लिए पहले से ही एक मुखौटा था। इसे कई अनुक्रमों तक विस्तारित करना सीधा था जैसा कि निम्नलिखित TensorFlow छद्म कोड में देखा जा सकता है। अवधारणा यह है कि हमने यह सुनिश्चित किया कि ध्यान अलग-अलग अनुक्रमों तक ही सीमित रहे और उससे आगे न बढ़ सके।

ध्यान दें मास्क कोड नमूना।


 


चित्र 5: उदाहरण शून्य-एक मास्क

 

नुकसान की गणना के लिए, सिद्धांत रूप में हम अनुक्रमों को अनपैक करते हैं और अलग-अलग नुकसानों की गणना करते हैं, अंततः अनुक्रमों (पैक के बजाय) पर नुकसान का औसत प्राप्त करते हैं।

एमएलएम हानि के लिए, कोड इस प्रकार दिखता है:

हानि गणना कोड नमूना।


 

एनएसपी हानि और सटीकता के लिए, सिद्धांत समान है। हमारे सार्वजनिक उदाहरणों में, आप हमारे इन-हाउस में संबंधित कोड पा सकते हैं पॉपआर्ट ढांचा.

विकिपीडिया ओवरहेड और स्पीडअप अनुमान

 
 
BERT के हमारे संशोधन के साथ, हमारे पास दो प्रश्न थे:

  1. यह अपने साथ कितना उपरिव्यय लाता है?
  2. किसी पैक में एक साथ रखे गए अनुक्रमों की अधिकतम संख्या पर ओवरहेड कितना निर्भर करता है?

चूंकि बीईआरटी में डेटा तैयार करना बोझिल हो सकता है, इसलिए हमने एक शॉर्टकट का उपयोग किया और कई अलग-अलग पैकिंग गहराई के लिए कोड संकलित किया और संबंधित (मापा) चक्रों की तुलना की। परिणाम तालिका 4 में प्रदर्शित किए गए हैं उपरि, हम पैकिंग को सक्षम करने के लिए मॉडल में परिवर्तन (जैसे ध्यान के लिए मास्किंग योजना और परिवर्तित हानि गणना) के कारण थ्रूपुट में प्रतिशत कमी को दर्शाते हैं। गति-गति का एहसास हुआ पैकिंग के कारण गति-वृद्धि का संयोजन है (द)। पैकिंग कारक) और थ्रूपुट में कमी के कारण उपरि.



तालिका 4: विकिपीडिया पर प्रस्तावित पैकिंग एल्गोरिदम (एसपीएफएचपी और एनएनएलएसएचपी) की अनुमानित गति-तुलना। लेखक द्वारा छवि.

 

वैश्वीकरण तकनीक के लिए धन्यवाद, ओवरहेड आश्चर्यजनक रूप से छोटा है और कई अनुक्रमों को एक साथ पैक करने से कोई नुकसान नहीं है।

हाइपरपैरामीटर-समायोजन

 
 
पैकिंग के साथ, हम प्रभावी बैच आकार (औसतन) को दोगुना कर रहे हैं। इसका मतलब है कि हमें प्रशिक्षण हाइपरपैरामीटर को समायोजित करने की आवश्यकता है। एक सरल तरकीब यह है कि प्रशिक्षण से पहले प्रभावी औसत बैच आकार को समान रखने के लिए ग्रेडिएंट संचय संख्या को आधा कर दिया जाए। पूर्व-प्रशिक्षित चौकियों के साथ बेंचमार्क सेटिंग का उपयोग करके, हम देख सकते हैं कि सटीकता वक्र पूरी तरह से मेल खाते हैं।



चित्र 6: पैक्ड और अनपैक्ड प्रसंस्करण के लिए सीखने के चरणों की तुलना बैच का आकार कम किया गया पैक्ड दृष्टिकोण के लिए. लेखक द्वारा छवियां.

 

सटीकता मेल खाती है: एमएलएम प्रशिक्षण हानि शुरुआत में थोड़ी भिन्न हो सकती है लेकिन जल्दी ही पकड़ में आ जाती है। यह प्रारंभिक अंतर ध्यान परतों के मामूली समायोजन से आ सकता है जो पिछले प्रशिक्षण में छोटे अनुक्रमों के प्रति पक्षपाती हो सकता है।

मंदी से बचने के लिए, कभी-कभी मूल बैच आकार को समान रखने और हाइपरपैरामीटर को बढ़े हुए प्रभावी बैच आकार (दोगुने) में समायोजित करने में मदद मिलती है। विचार करने के लिए मुख्य हाइपरपैरामीटर बीटा पैरामीटर और सीखने की दर हैं। एक सामान्य तरीका बैच आकार को दोगुना करना है, जिससे हमारे मामले में प्रदर्शन कम हो गया। LAMB ऑप्टिमाइज़र के आँकड़ों को देखते हुए, हम यह साबित कर सकते हैं कि पैकिंग कारक की शक्ति के लिए बीटा पैरामीटर को बढ़ाना गति और वेग को तुलनीय बनाए रखने के लिए लगातार कई बैचों को प्रशिक्षित करने से मेल खाता है।



चित्र 7: पैक्ड और अनपैक्ड प्रसंस्करण के लिए सीखने के चरणों की तुलना heuristics लागू। लेखक द्वारा छवियां.

 

हमारे प्रयोगों से पता चला है कि बीटा को दो की घात पर लेना एक अच्छा अनुमान है। इस परिदृश्य में, वक्रों के मेल खाने की उम्मीद नहीं है क्योंकि बैच का आकार बढ़ने से आमतौर पर लक्ष्य सटीकता तक पहुंचने तक नमूनों/युगों के अर्थ में अभिसरण गति कम हो जाती है।

अब सवाल यह है कि व्यावहारिक परिदृश्य में क्या हमें सचमुच अपेक्षित गति मिल पाती है?



चित्र 8: पैक्ड और अनपैक्ड प्रसंस्करण के लिए सीखने के चरणों की तुलना अनुकूलित सेटअप. लेखक द्वारा छवियाँ.

 

हाँ हम करते हैं! हमें अतिरिक्त गति प्राप्त हुई क्योंकि हमने डेटा स्थानांतरण को संपीड़ित कर दिया था।

निष्कर्ष

 
 
वाक्यों को एक साथ पैक करने से गणना प्रयास और पर्यावरण को बचाया जा सकता है। इस तकनीक को PyTorch और TensorFlow सहित किसी भी ढांचे में लागू किया जा सकता है। हमने स्पष्ट 2x स्पीड-अप प्राप्त की और, साथ ही, हमने पैकिंग एल्गोरिदम में कला की स्थिति को बढ़ाया।

अन्य अनुप्रयोग जिनके बारे में हम उत्सुक हैं वे हैं जीनोमिक्स और प्रोटीन फोल्डिंग जहां समान डेटा वितरण देखा जा सकता है। अलग-अलग आकार की पैक्ड छवियों को लागू करने के लिए विज़न ट्रांसफार्मर भी एक दिलचस्प क्षेत्र हो सकता है। आपके अनुसार कौन से एप्लिकेशन अच्छा काम करेंगे? हमें आपसे सुनना प्रिय लगेगा!

अखबार को पढ़ो

GitHub पर कोड तक पहुंचें

शुक्रिया

 
 
इस काम में उनके योगदान के लिए ग्राफकोर की एप्लिकेशन इंजीनियरिंग टीम के हमारे सहयोगियों शेंग फू और मृणाल अय्यर को धन्यवाद और ग्राफकोर की रिसर्च टीम के डगलस ऑर को उनकी बहुमूल्य प्रतिक्रिया के लिए धन्यवाद।

संदर्भ

 
 
[1] एम. कोसेक, एस. फू, एमएम क्रेल, पैकिंग: 2x एनएलपी बीईआरटी एक्सेलेरेशन की ओर (2021), arXiv

 
डॉ. मारियो माइकल क्रेल ग्राफकोर में प्रिंसिपल मशीन लर्निंग लीड हैं। मारियो 12 वर्षों से अधिक समय से मशीन लर्निंग एल्गोरिदम पर शोध और विकास कर रहा है, रोबोटिक्स, ऑटोमोटिव, दूरसंचार और स्वास्थ्य सेवा जैसे विविध उद्योगों के लिए सॉफ्टवेयर बना रहा है। ग्राफकोर में, उन्होंने हमारे प्रभावशाली योगदान में योगदान दिया एमएलपर्फ सबमिशन और सांख्यिकीय COVID-19 डेटा विश्लेषण के लिए अनुमानित बायेसियन गणना जैसे नए गैर-मानक मॉडल में तेजी लाने का जुनून है।

मतेज कोसेक पालो ऑल्टो में ग्राफकोर में एआई एप्लीकेशन विशेषज्ञ हैं। उन्होंने पहले सैन जोस में एनआईओ में स्वायत्त ड्राइविंग पर एआई वैज्ञानिक के रूप में काम किया है, और स्टैनफोर्ड विश्वविद्यालय से वैमानिकी और अंतरिक्ष विज्ञान में मास्टर डिग्री प्राप्त की है।

मूल। अनुमति के साथ पुनर्प्रकाशित।

संबंधित:



शीर्ष आलेख पिछले 30 दिन
सबसे लोकप्रिय
  1. डेटा वैज्ञानिकों और एमएल इंजीनियरों के बीच अंतर
  2. 3 कारण क्यों आपको तंत्रिका नेटवर्क के बजाय रैखिक प्रतिगमन मॉडल का उपयोग करना चाहिए
  3. सर्वाधिक सामान्य डेटा विज्ञान साक्षात्कार प्रश्न और उत्तर
  4. GitHub Copilot ओपन सोर्स अल्टरनेटिव्स
  5. Google के अनुसंधान निदेशक से डेटा विज्ञान सीखने की सलाह
सर्वाधिक साझा
  1. डेटा वैज्ञानिकों और एमएल इंजीनियरों के बीच अंतर
  2. अपने पंडों के डेटाफ़्रेम को कैसे क्वेरी करें
  3. आपको "उत्पादक डेटा विज्ञान" क्यों और कैसे सीखना चाहिए?
  4. न केवल डीप लर्निंग के लिए: जीपीयू डेटा साइंस और डेटा एनालिटिक्स को कैसे तेज करता है
  5. रे के साथ अपना पहला वितरित पायथन एप्लिकेशन लिखना

स्रोत: https://www.kdnuggets.com/2021/08/packed-bert-training-speed-up-प्राकृतिक-भाषा-प्रसंस्करण.html

समय टिकट:

से अधिक केडनगेट्स