कंट्रोलनेट और स्टारकोडर: जेनरेटिव एआई के लिए रोबॉक्स अनुसंधान प्रगति - रोबॉक्स ब्लॉग

कंट्रोलनेट और स्टारकोडर: जेनरेटिव एआई के लिए रोबॉक्स अनुसंधान प्रगति - रोबॉक्स ब्लॉग

स्रोत नोड: 2864546

हम कृत्रिम बुद्धिमत्ता (एआई) सहित सभी क्षेत्रों में जिम्मेदार और समुदाय से जुड़े अनुसंधान को आगे बढ़ाने के लिए गहराई से प्रतिबद्ध हैं। हम इसे पारदर्शिता, बाहरी सत्यापन और सहयोग और प्रायोजन के माध्यम से शैक्षणिक संस्थानों का समर्थन करके हासिल करते हैं। यह दृष्टिकोण हमें अपने तीन फोकस क्षेत्रों में सबसे बड़ी प्रगति हासिल करने में तेजी लाने की अनुमति देता है: जेनरेटिव एआई, डेटा सेंटर स्केलिंग और ऑनलाइन सुरक्षा। आज, हम अपनी दो जेनरेटिव एआई अनुसंधान परियोजनाओं से अंतर्दृष्टि और परिणाम साझा कर रहे हैं। कंट्रोलनेट एक ओपन-सोर्स न्यूरल नेटवर्क है जो अधिक सटीक छवि आउटपुट के लिए छवि निर्माण मॉडल में सशर्त नियंत्रण जोड़ता है। स्टारकोडर कोड जनरेशन के लिए एक अत्याधुनिक ओपन-सोर्स लार्ज लैंग्वेज मॉडल (एलएलएम) है। 

दोनों परियोजनाएं अकादमिक और उद्योग सहयोग हैं। दोनों हमारे रचनाकारों के लिए मौलिक रूप से अधिक शक्तिशाली टूल पर भी केंद्रित हैं: 3डी कलाकार और प्रोग्रामर। सबसे महत्वपूर्ण और परिवर्तनकारी अनुसंधान के माध्यम से दीर्घकालिक दृष्टिकोण में निवेश करने के हमारे मिशन के अनुरूप, ये परियोजनाएं कई अनुप्रयोगों के लिए एआई की मौलिक वैज्ञानिक समझ और नियंत्रण में प्रगति के संकेत प्रदर्शित करती हैं। हमारा मानना ​​है कि इस कार्य का रोबॉक्स और संपूर्ण क्षेत्र के भविष्य पर महत्वपूर्ण प्रभाव पड़ सकता है और हम इसे खुले तौर पर साझा करने में गर्व महसूस करते हैं।

कंट्रोलनेट

हाल की एआई सफलताओं - विशेष रूप से गहरे तंत्रिका नेटवर्क का उपयोग करके डेटा-संचालित मशीन लर्निंग (एमएल) विधियों - ने निर्माण उपकरणों में नई प्रगति को प्रेरित किया है। इन अग्रिमों में हमारा भी शामिल है कोड असिस्ट और सामग्री जनरेटर वे सुविधाएँ जो हमारे मुफ़्त टूल, Roblox Studio में सार्वजनिक रूप से उपलब्ध हैं। आधुनिक जेनरेटिव एआई सिस्टम में मॉडल नामक डेटा संरचनाएं होती हैं जिन्हें अरबों प्रशिक्षण कार्यों के माध्यम से परिष्कृत किया जाता है। आज के सबसे शक्तिशाली मॉडल मल्टीमॉडल हैं, जिसका अर्थ है कि उन्हें पाठ, चित्र और ऑडियो जैसे मीडिया के मिश्रण पर प्रशिक्षित किया जाता है। यह उन्हें रंग पैलेट या वर्तनी जैसे डेटा सेट के विशिष्ट तत्वों को ओवरफिट करने के बजाय मीडिया में सामान्य अंतर्निहित अर्थ ढूंढने की अनुमति देता है। 

इन नई एआई प्रणालियों में महत्वपूर्ण अभिव्यंजक शक्ति है, लेकिन वह शक्ति बड़े पैमाने पर "त्वरित इंजीनियरिंग" के माध्यम से निर्देशित होती है। ऐसा करने का मतलब केवल इनपुट टेक्स्ट को बदलना है, यह एक खोज इंजन क्वेरी को परिष्कृत करने के समान है यदि यह आपकी अपेक्षा के अनुरूप नहीं लौटती है। हालांकि यह अप्रत्यक्ष चैटबॉट जैसी नई तकनीक के साथ खेलने का एक आकर्षक तरीका हो सकता है, लेकिन यह सामग्री बनाने का एक कुशल या प्रभावी तरीका नहीं है। इसके बजाय रचनाकारों को ऐसे शक्ति उपकरणों की आवश्यकता होती है जिनका वे अनुमान लगाने के बजाय सक्रिय नियंत्रण के माध्यम से प्रभावी ढंग से लाभ उठा सकें।

कंट्रोलनेट परियोजना इनमें से कुछ चुनौतियों को हल करने की दिशा में एक कदम है। यह बड़े पूर्व-प्रशिक्षित एआई मॉडल की शक्ति का उपयोग करने का एक कुशल तरीका प्रदान करता है स्थिर प्रसार, शीघ्र इंजीनियरिंग पर भरोसा किए बिना। कंट्रोलनेट कलाकार को केवल टेक्स्ट संकेतों के अलावा अतिरिक्त इनपुट शर्तें प्रदान करने की अनुमति देकर नियंत्रण बढ़ाता है। रोब्लॉक्स शोधकर्ता और स्टैनफोर्ड विश्वविद्यालय के प्रोफेसर मनीष अग्रवाल और स्टैनफोर्ड शोधकर्ता लवमिन झांग ने हमारे संयुक्त कंट्रोलनेट प्रोजेक्ट के लिए लक्ष्य इस प्रकार तय किए हैं:

  1. जेनरेटिव एआई टूल्स के लिए एक बेहतर यूजर इंटरफेस विकसित करें। अस्पष्ट त्वरित हेरफेर से आगे बढ़ें और किसी विचार या रचनात्मक अवधारणा को संप्रेषित करने के अधिक प्राकृतिक तरीकों का निर्माण करें।
  2. अधिक सटीक स्थानिक नियंत्रण प्रदान करें, "एक छवि जैसी" या "की शैली में एक छवि" बनाने से परे जाकर, ठीक उसी छवि को साकार करने में सक्षम करें जो निर्माता के दिमाग में है।
  3. जेनरेटिव एआई प्रशिक्षण को अधिक गणना-कुशल प्रक्रिया में बदलें जो अधिक तेज़ी से निष्पादित होती है, कम मेमोरी की आवश्यकता होती है, और कम विद्युत ऊर्जा की खपत होती है।
  4. पुन: प्रयोज्य बिल्डिंग ब्लॉक में इमेज जेनरेटर एआई का विस्तार करें। इसके बाद इसे मानकीकृत छवि प्रसंस्करण और 3डी रेंडरिंग पाइपलाइनों के साथ एकीकृत किया जा सकता है। 

रचनाकारों को स्थानिक नियंत्रण के लिए एक अतिरिक्त छवि प्रदान करने की अनुमति देकर, कंट्रोलनेट अंतिम उत्पन्न छवि पर अधिक नियंत्रण प्रदान करता है। उदाहरण के लिए, मौजूदा टेक्स्ट-टू-इमेज जनरेटर पर "सींग वाले नर हिरण" के एक संकेत ने विभिन्न प्रकार की छवियां उत्पन्न कीं, जैसा कि नीचे दिखाया गया है:

पिछले एआई समाधानों से तैयार की गई ये छवियां आकर्षक हैं, लेकिन दुर्भाग्य से अनिवार्य रूप से मनमाने परिणाम हैं- कोई नियंत्रण नहीं है। टेक्स्ट प्रॉम्प्ट को संशोधित करने के अलावा, आउटपुट को संचालित करने के लिए उन पिछले इमेज जनरेटिंग सिस्टम पर कोई रास्ता नहीं है।

कंट्रोलनेट के साथ, निर्माता के पास अब बहुत अधिक शक्ति है। कंट्रोलनेट का उपयोग करने का एक तरीका अनुसरण करने योग्य सामान्य आकार निर्धारित करने के लिए एक संकेत और एक स्रोत छवि दोनों प्रदान करना है। इस मामले में, परिणामी छवियां अभी भी विविधता प्रदान करेंगी लेकिन, महत्वपूर्ण रूप से, निर्दिष्ट आकार को बरकरार रखेंगी:

निर्माता किनारों का एक सेट, बिना किसी संकेत वाली एक छवि, या सिस्टम को अभिव्यंजक इनपुट प्रदान करने के कई अन्य तरीके भी निर्दिष्ट कर सकता था।

कंट्रोलनेट बनाने के लिए, हम एक बड़े प्रसार मॉडल के नेटवर्क के भीतर वजन को दो संस्करणों में क्लोन करते हैं। एक है प्रशिक्षण योग्य नेटवर्क (यह नियंत्रण प्रदान करता है; यह "कंट्रोलनेट" है) और दूसरा है लॉक किया हुआ नेटवर्क. लॉक किया गया नेटवर्क अरबों छवियों से सीखी गई क्षमता को सुरक्षित रखता है और यह कोई भी पिछला छवि जनरेटर हो सकता है। फिर हम अतिरिक्त छवि से सशर्त नियंत्रण सीखने के लिए कार्य-विशिष्ट डेटा सेट पर प्रशिक्षित नेटवर्क को प्रशिक्षित करते हैं। प्रशिक्षित और लॉक की गई प्रतियां एक अद्वितीय प्रकार की कनवल्शन परत से जुड़ी होती हैं जिसे हम कहते हैं शून्य कनवल्शन, जहां कनवल्शन वेट धीरे-धीरे सीखे हुए तरीके से शून्य से अनुकूलित मापदंडों तक बढ़ता है, जिसका अर्थ है कि शुरू में उनका कोई प्रभाव नहीं होता है और सिस्टम लॉक नेटवर्क पर नियंत्रण का इष्टतम स्तर प्राप्त करता है।

चूंकि मूल वजन लॉक नेटवर्क के माध्यम से संरक्षित किया जाता है, इसलिए मॉडल विभिन्न आकारों के प्रशिक्षण डेटा सेट के साथ अच्छी तरह से काम करता है। और शून्य कनवल्शन परत प्रक्रिया को बहुत तेज़ बनाती है - स्क्रैच से नई परतों को प्रशिक्षित करने की तुलना में एक प्रसार मॉडल को ठीक करने के करीब। 

हमने छवि निर्माण के लिए इस तकनीक का व्यापक सत्यापन किया है। कंट्रोलनेट केवल आउटपुट छवि की गुणवत्ता में सुधार नहीं करता है। यह किसी विशिष्ट कार्य के लिए नेटवर्क के प्रशिक्षण को अधिक कुशल बनाता है और इस प्रकार हमारे लाखों रचनाकारों के लिए इसे बड़े पैमाने पर तैनात करना व्यावहारिक बनाता है। प्रयोगों में, कंट्रोलनेट उन वैकल्पिक परिदृश्यों की तुलना में 10 गुना तक दक्षता लाभ प्रदान करता है जिनके लिए एक मॉडल को पूरी तरह से फिर से प्रशिक्षित करने की आवश्यकता होती है। यह दक्षता महत्वपूर्ण है, क्योंकि नए मॉडल बनाने की प्रक्रिया पारंपरिक सॉफ्टवेयर विकास की तुलना में समय लेने वाली और संसाधन-गहन है। प्रशिक्षण को अधिक कुशल बनाने से बिजली की बचत होती है, लागत कम होती है और नई कार्यक्षमता जोड़ने की दर बढ़ जाती है।

कंट्रोलनेट की अनूठी संरचना का मतलब है कि यह विभिन्न आकारों के प्रशिक्षण डेटा सेट और कई अलग-अलग प्रकार के मीडिया पर अच्छी तरह से काम करता है। कंट्रोलनेट को कई अलग-अलग प्रकार के नियंत्रण तौर-तरीकों के साथ काम करते हुए दिखाया गया है, जिनमें फोटो, हाथ से खींची गई स्क्रिबल्स और खोलना मुद्रा का पता लगाना। हमारा मानना ​​है कि जेनेरिक एआई सामग्री के लिए कंट्रोलनेट को कई अलग-अलग प्रकार के मीडिया पर लागू किया जा सकता है। यह अनुसंधान खुला और सार्वजनिक रूप से उपलब्ध है समुदाय के लिए प्रयोग करने और उस पर निर्माण करने के लिए, और हम अधिक जानकारी प्रस्तुत करना जारी रखेंगे क्योंकि हम इसके साथ और अधिक खोज करेंगे।

स्टारकोडर

जेनरेटिव एआई को चित्र, ऑडियो, टेक्स्ट, प्रोग्राम सोर्स कोड, या समृद्ध मीडिया के किसी अन्य रूप का उत्पादन करने के लिए लागू किया जा सकता है। हालाँकि, विभिन्न मीडिया में, सबसे बड़ी सफलता वाले अनुप्रयोग वे होते हैं जिनके आउटपुट को व्यक्तिपरक रूप से आंका जाता है। उदाहरण के लिए, एक छवि तब सफल होती है जब वह मानव दर्शक को आकर्षित करती है। छवि में कुछ त्रुटियाँ, जैसे कि किनारों पर अजीब विशेषताएँ या यहाँ तक कि हाथ पर एक अतिरिक्त उंगली, पर ध्यान नहीं दिया जा सकता है यदि समग्र छवि आकर्षक है। इसी तरह, एक कविता या लघु कहानी में व्याकरण संबंधी त्रुटियाँ या कुछ तार्किक छलांगें हो सकती हैं, लेकिन यदि सार सम्मोहक है, तो हम इन्हें माफ कर देते हैं। 

व्यक्तिपरक मानदंड पर विचार करने का दूसरा तरीका यह है कि परिणाम स्थान निरंतर है। एक परिणाम दूसरे से बेहतर हो सकता है, लेकिन ऐसी कोई विशिष्ट सीमा नहीं है जिस पर परिणाम पूरी तरह से स्वीकार्य या अस्वीकार्य हो। मीडिया के अन्य डोमेन और रूपों के लिए आउटपुट का मूल्यांकन निष्पक्ष रूप से किया जाता है। उदाहरण के लिए, जेनरेटिव एआई प्रोग्रामिंग असिस्टेंट द्वारा निर्मित स्रोत कोड या तो सही है या नहीं। यदि कोड किसी परीक्षण में उत्तीर्ण नहीं हो पाता है, तो वह विफल हो जाता है, भले ही वह वैध समाधान के लिए कोड के समान हो। यह एक पृथक परिणाम स्थान है. अलग-अलग स्थान पर सफल होना कठिन है क्योंकि मानदंड अधिक सख्त हैं और क्योंकि कोई उत्तरोत्तर अच्छे समाधान तक नहीं पहुंच सकता है - कोड तब तक टूट जाता है जब तक कि यह अचानक काम नहीं करता है।

टेक्स्ट आउटपुट के लिए उपयोग किए जाने वाले एलएलएम चैटबॉट्स जैसे व्यक्तिपरक, निरंतर अनुप्रयोगों के लिए अच्छी तरह से काम करते हैं। वे अंग्रेजी और फ़्रेंच जैसी कई मानव भाषाओं में गद्य पीढ़ी के लिए भी अच्छा काम करते प्रतीत होते हैं। हालाँकि, मौजूदा एलएलएम उतना अच्छा काम नहीं कर रहे हैं प्रोग्रामिंग भाषाएँ जैसा कि वे उन मानव भाषाओं के लिए करते हैं। कोड गणित का एक रूप है जो प्राकृतिक भाषा की तुलना में अर्थ व्यक्त करने का एक बहुत अलग, उद्देश्यपूर्ण तरीका है। यह सतत परिणाम स्थान के बजाय एक पृथक परिणाम स्थान है। रोबॉक्स रचनाकारों के लिए प्रोग्रामिंग भाषा कोड निर्माण की उच्चतम गुणवत्ता प्राप्त करने के लिए, हमें एलएलएम लागू करने के तरीकों की आवश्यकता है जो इस असतत, उद्देश्यपूर्ण स्थान में अच्छी तरह से काम कर सकें। हमें किसी विशेष भाषा सिंटैक्स से स्वतंत्र कोड कार्यक्षमता को व्यक्त करने के लिए मजबूत तरीकों की भी आवश्यकता है, जैसे कि लुआ, जावास्क्रिप्ट, या पायथन। 

स्टारकोडर, कोड जनरेशन के लिए एक नया अत्याधुनिक ओपन-सोर्स एलएलएम, इस तकनीकी चुनौती के लिए एक प्रमुख प्रगति है और वास्तव में सभी के लिए खुला एलएलएम है। स्टारकोडर इसका एक परिणाम है बड़ा कोड अनुसंधान संघ, जिसमें शैक्षणिक और उद्योग अनुसंधान प्रयोगशालाओं में 600 से अधिक सदस्य शामिल हैं। रोबॉक्स शोधकर्ता और नॉर्थईस्टर्न यूनिवर्सिटी के प्रोफेसर अर्जुन गुहा ने स्टारकोडर को विकसित करने में इस टीम का नेतृत्व करने में मदद की। ये पहले प्रकाशित परिणाम विशेष रूप से कोड पहलू पर ध्यान केंद्रित करते हैं, जो वह क्षेत्र है जिसमें व्यक्तिपरक तरीकों की सापेक्ष सफलता को देखते हुए क्षेत्र को नए विकास की सबसे अधिक आवश्यकता है। 

एलएलएम के माध्यम से जेनेरिक एआई प्रदान करने के लिए जो बड़े एआई पारिस्थितिकी तंत्र और रोबॉक्स समुदाय का समर्थन करता है, हमें ऐसे मॉडल की आवश्यकता है जिन्हें विशेष रूप से उचित लाइसेंस प्राप्त और जिम्मेदारी से एकत्रित डेटा सेट पर प्रशिक्षित किया गया हो। इनमें अप्रतिबंधित लाइसेंस भी होना चाहिए ताकि कोई भी उनका उपयोग कर सके, उन पर निर्माण कर सके और पारिस्थितिकी तंत्र में वापस योगदान कर सके। आज, सबसे शक्तिशाली एलएलएम मालिकाना हैं, या व्यावसायिक उपयोग के सीमित रूपों के लिए लाइसेंस प्राप्त हैं, जो शोधकर्ताओं की मॉडल के साथ प्रयोग करने की क्षमता को प्रतिबंधित या सीमित करता है। इसके विपरीत, स्टारकोडर वास्तव में एक खुला मॉडल है, जो उद्योग और अकादमिक शोधकर्ताओं के गठबंधन के माध्यम से बनाया गया है और किसी भी पैमाने पर व्यावसायिक अनुप्रयोग के लिए बिना किसी प्रतिबंध के लाइसेंस प्राप्त है। स्टारकोडर को विशेष रूप से जिम्मेदारी से एकत्रित, उचित रूप से लाइसेंस प्राप्त सामग्री पर प्रशिक्षित किया जाता है। मॉडल को शुरू में सार्वजनिक कोड पर प्रशिक्षित किया गया था और उन लोगों के लिए एक ऑप्ट-आउट प्रक्रिया उपलब्ध है जो प्रशिक्षण के लिए अपने कोड का उपयोग नहीं करना पसंद करते हैं।

आज, StarCoder 86 विभिन्न प्रोग्रामिंग भाषाओं पर काम करता है, जिनमें Python, C++ और Java शामिल हैं। पेपर के प्रकाशन के समय, यह हर खुले कोड एलएलएम से बेहतर प्रदर्शन कर रहा था जो कई भाषाओं का समर्थन करता है और यहां तक ​​कि कई बंद, मालिकाना मॉडल के साथ प्रतिस्पर्धी भी था। 

स्टारकोडर एलएलएम पारिस्थितिकी तंत्र में एक योगदान है, लेकिन हमारा शोध लक्ष्य बहुत गहरा है। इस शोध का सबसे बड़ा प्रभाव कोड, पाठ, चित्र, भाषण, वीडियो सहित उद्देश्य और व्यक्तिपरक मल्टीमॉडल मॉडल के सिमेंटिक मॉडलिंग को आगे बढ़ाना और डोमेन-ट्रांसफर तकनीकों के माध्यम से प्रशिक्षण दक्षता को बढ़ाना है। हम सोर्स कोड जनरेशन जैसे वस्तुनिष्ठ कार्यों के लिए जेनरेटर एआई की रखरखाव और नियंत्रणीयता में गहरी अंतर्दृष्टि प्राप्त करने की भी उम्मीद करते हैं। उभरती प्रौद्योगिकी के एक दिलचस्प प्रदर्शन और एक सुरक्षित, विश्वसनीय और कुशल उत्पाद के बीच एक बड़ा अंतर है जो अपने उपयोगकर्ता समुदाय के लिए मूल्य लाता है। हमारे एमएल मॉडल के लिए, हम मेमोरी फ़ुटप्रिंट, पावर संरक्षण और निष्पादन समय के लिए प्रदर्शन को अनुकूलित करते हैं। हमने एक मजबूत बुनियादी ढांचा भी विकसित किया है, इसे सिस्टम के बाकी हिस्सों से जोड़ने के लिए एआई कोर को सॉफ्टवेयर से घेर लिया है, और नई सुविधाओं के जुड़ने पर लगातार अपडेट के लिए एक निर्बाध प्रणाली विकसित की है। 

रोबोक्स के वैज्ञानिकों और इंजीनियरों को वैज्ञानिक समुदाय के कुछ सबसे तेज़ दिमागों के साथ लाना हमारी अग्रणी प्रौद्योगिकी की खोज में एक महत्वपूर्ण घटक है। हमें इन शुरुआती परिणामों को साझा करने और अनुसंधान समुदाय को हमारे साथ जुड़ने और इन प्रगतियों को आगे बढ़ाने के लिए आमंत्रित करने पर गर्व है।

समय टिकट:

से अधिक Roblox