LLM Apocalypse Now: Revenge Of The Open Source Clones - KDnuggets

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

एलएलएम सर्वनाश अब: ओपन सोर्स क्लोन का बदला

एडोब जुगनू से छवि

“हममें से बहुत सारे लोग थे। हमारे पास बहुत अधिक धन, बहुत अधिक उपकरण थे और धीरे-धीरे हम पागल हो गए।”

फ्रांसिस फोर्ड कोपोला उन एआई कंपनियों के लिए रूपक नहीं बना रहे थे जो बहुत अधिक खर्च करती हैं और अपना रास्ता भटक जाती हैं, लेकिन वह ऐसा कर सकते थे। अब सर्वनाश यह महाकाव्य था लेकिन बनाने में एक लंबा, कठिन और महंगा प्रोजेक्ट भी था, GPT-4 की तरह। मेरा सुझाव है कि एलएलएम के विकास में बहुत अधिक पैसा और बहुत अधिक उपकरण लगे हैं। और कुछ "हमने अभी-अभी सामान्य बुद्धि का आविष्कार किया है" का प्रचार थोड़ा पागलपन भरा है। लेकिन अब ओपन सोर्स समुदायों की बारी है कि वे वह करें जो वे सबसे अच्छा करते हैं: बहुत कम पैसे और उपकरणों का उपयोग करके मुफ्त प्रतिस्पर्धी सॉफ़्टवेयर वितरित करना।

OpenAI ने $11Bn से अधिक की फंडिंग ली है और अनुमान है कि GPT-3.5 की लागत प्रति प्रशिक्षण $5-$6m है। हम GPT-4 के बारे में बहुत कम जानते हैं क्योंकि OpenAI नहीं बता रहा है, लेकिन मुझे लगता है कि यह मान लेना सुरक्षित है कि यह GPT-3.5 से छोटा नहीं है। वर्तमान में दुनिया भर में GPU की कमी है और - एक बदलाव के लिए - यह नवीनतम क्रिप्टोकॉइन के कारण नहीं है। जेनेरेटिव एआई स्टार्ट-अप $100 मिलियन+ सीरीज ए राउंड में भारी वैल्यूएशन पर उतर रहे हैं, जब उनके पास एलएलएम के लिए कोई भी आईपी नहीं है जिसका उपयोग वे अपने उत्पाद को पावर देने के लिए करते हैं। एलएलएम का चलन जोरों पर है और पैसा बह रहा है।

It had looked like the die was cast: only deep-pocketed companies like Microsoft/OpenAI, Amazon, and Google could afford to train hundred-billion parameter models. Bigger models were assumed to be better models. GPT-3 got something wrong? Just wait until there's a bigger version and it’ll all be fine! Smaller companies looking to compete had to raise far more capital or be left building commodity integrations in the ChatGPT marketplace. Academia, with even more constrained research budgets, was relegated to the sidelines.

सौभाग्य से, कुछ स्मार्ट लोगों और ओपन सोर्स प्रोजेक्ट्स ने इसे प्रतिबंध के बजाय एक चुनौती के रूप में लिया। स्टैनफोर्ड के शोधकर्ताओं ने 7-बिलियन पैरामीटर मॉडल अल्पाका जारी किया, जिसका प्रदर्शन जीपीटी-3.5 के 175-बिलियन पैरामीटर मॉडल के करीब आता है। OpenAI द्वारा उपयोग किए जाने वाले आकार का एक प्रशिक्षण सेट बनाने के लिए संसाधनों की कमी के कारण, उन्होंने चतुराई से एक प्रशिक्षित ओपन सोर्स LLM, LLaMA लेने का विकल्प चुना और इसके बजाय GPT-3.5 संकेतों और आउटपुट की एक श्रृंखला पर इसे ठीक किया। मूलतः मॉडल ने सीखा कि GPT-3.5 क्या करता है, जो उसके व्यवहार को दोहराने के लिए एक बहुत प्रभावी रणनीति बन गई है।

अल्पाका को केवल कोड और डेटा दोनों में गैर-व्यावसायिक उपयोग के लिए लाइसेंस प्राप्त है क्योंकि यह ओपन सोर्स गैर-व्यावसायिक एलएलएएमए मॉडल का उपयोग करता है, और ओपनएआई प्रतिस्पर्धी उत्पाद बनाने के लिए अपने एपीआई के किसी भी उपयोग की स्पष्ट रूप से अनुमति नहीं देता है। यह अल्पाका के संकेतों और आउटपुट पर एक अलग ओपन सोर्स एलएलएम को ठीक करने की आकर्षक संभावना पैदा करता है... विभिन्न लाइसेंसिंग संभावनाओं के साथ एक तीसरा जीपीटी-3.5-जैसा मॉडल तैयार करता है।

यहां विडंबना की एक और परत है, जिसमें सभी प्रमुख एलएलएम को इंटरनेट पर उपलब्ध कॉपीराइट पाठ और छवियों पर प्रशिक्षित किया गया था और उन्होंने अधिकार धारकों को एक पैसा भी नहीं दिया। कंपनियां अमेरिकी कॉपीराइट कानून के तहत "उचित उपयोग" छूट का दावा इस तर्क के साथ करती हैं कि इसका उपयोग "परिवर्तनकारी" है। हालाँकि, जब उन मॉडलों के आउटपुट की बात आती है जो वे मुफ़्त डेटा के साथ बनाते हैं, तो वे वास्तव में नहीं चाहते कि कोई भी उनके साथ वही काम करे। मुझे उम्मीद है कि अधिकार-धारकों के समझदार होने पर इसमें बदलाव आएगा और किसी बिंदु पर इसका अंत अदालत में हो सकता है।

यह प्रतिबंधात्मक-लाइसेंस प्राप्त ओपन सोर्स के लेखकों द्वारा उठाया गया एक अलग और विशिष्ट बिंदु है, जो कोपायलट जैसे कोड उत्पादों के लिए जेनरेटिव एआई के लिए, इस आधार पर प्रशिक्षण के लिए उपयोग किए जा रहे उनके कोड पर आपत्ति जताते हैं कि लाइसेंस का पालन नहीं किया जा रहा है। व्यक्तिगत ओपन-सोर्स लेखकों के लिए समस्या यह है कि उन्हें अपनी स्थिति दिखाने की ज़रूरत है - वास्तविक नकल - और इससे उन्हें नुकसान हुआ है। और चूंकि मॉडल आउटपुट कोड को इनपुट से लिंक करना कठिन बनाते हैं (लेखक द्वारा स्रोत कोड की पंक्तियाँ) और कोई आर्थिक नुकसान नहीं होता है (यह मुफ़्त माना जाता है), मामला बनाना बहुत कठिन है। यह फ़ायदेमंद रचनाकारों (उदाहरण के लिए, फ़ोटोग्राफ़र) के विपरीत है, जिनका पूरा व्यवसाय मॉडल अपने काम को लाइसेंस देने/बेचने में है, और जिनका प्रतिनिधित्व गेटी इमेजेज जैसे एग्रीगेटर्स द्वारा किया जाता है, जो वास्तविक नकल दिखा सकते हैं।

LLaMA के बारे में एक और दिलचस्प बात यह है कि यह मेटा से निकला है। इसे मूल रूप से केवल शोधकर्ताओं के लिए जारी किया गया था और फिर बिटटोरेंट के माध्यम से दुनिया भर में लीक कर दिया गया। मेटा, OpenAI, Microsoft, Google और Amazon से मौलिक रूप से अलग व्यवसाय में है, क्योंकि यह आपको क्लाउड सेवाएँ या सॉफ़्टवेयर बेचने की कोशिश नहीं कर रहा है, और इसलिए इसमें बहुत अलग प्रोत्साहन हैं। इसने अतीत में अपने कंप्यूट डिज़ाइन को ओपन-सोर्स किया है (ओपनकंप्यूट) और समुदाय को उनमें सुधार करते देखा है - यह ओपन सोर्स के मूल्य को समझता है।

मेटा सबसे महत्वपूर्ण ओपन-सोर्स एआई योगदानकर्ताओं में से एक बन सकता है। न केवल इसके पास बड़े पैमाने पर संसाधन हैं, बल्कि अगर महान जेनेरिक एआई तकनीक का प्रसार होता है तो इससे लाभ होता है: सोशल मीडिया पर मुद्रीकरण के लिए इसके लिए अधिक सामग्री होगी। मेटा ने तीन अन्य ओपन-सोर्स एआई मॉडल जारी किए हैं: इमेजबाइंड (बहु-आयामी डेटा इंडेक्सिंग), DINOv2 (कंप्यूटर विज़न) और सेगमेंट एनीथिंग। उत्तरार्द्ध छवियों में अद्वितीय वस्तुओं की पहचान करता है और अत्यधिक अनुमेय अपाचे लाइसेंस के तहत जारी किया जाता है।

अंतत: हमें एक आंतरिक Google दस्तावेज़ "वी हैव नो मोट, एंड न ही डूज़ ओपनएआई" के कथित रूप से लीक होने का पता चला, जो बंद मॉडल बनाम बहुत छोटे, सस्ते मॉडल बनाने वाले समुदायों के नवाचार के बारे में एक मंद दृष्टिकोण रखता है जो इसके करीब या उससे बेहतर प्रदर्शन करते हैं। उनके बंद स्रोत समकक्ष। मैं ऐसा कथित तौर पर इसलिए कह रहा हूं क्योंकि लेख के स्रोत को Google के आंतरिक होने के रूप में सत्यापित करने का कोई तरीका नहीं है। हालाँकि, इसमें यह सम्मोहक ग्राफ शामिल है:

स्पष्ट होने के लिए, ऊर्ध्वाधर अक्ष GPT-4 द्वारा एलएलएम आउटपुट की ग्रेडिंग है।

स्टेबल डिफ्यूजन, जो पाठ से छवियों को संश्लेषित करता है, एक और उदाहरण है जहां ओपन सोर्स जेनरेटर एआई मालिकाना मॉडल की तुलना में तेजी से आगे बढ़ने में सक्षम है। उस प्रोजेक्ट (कंट्रोलनेट) के हालिया पुनरावृत्ति ने इसमें ऐसा सुधार किया है कि यह Dall-E2 की क्षमताओं से आगे निकल गया है। यह दुनिया भर में बहुत सारे बदलावों के परिणामस्वरूप हुआ, जिसके परिणामस्वरूप प्रगति की ऐसी गति आई जिसका मुकाबला करना किसी एक संस्थान के लिए कठिन है। उनमें से कुछ टिंकरर्स ने यह पता लगाया कि कैसे सस्ते हार्डवेयर पर प्रशिक्षित और चलाने के लिए स्थिर प्रसार को तेज़ बनाया जाए, जिससे अधिक लोगों द्वारा छोटे पुनरावृत्ति चक्र को सक्षम किया जा सके।

और इसलिए हम पूर्ण चक्र में आ गए हैं। बहुत अधिक पैसा और बहुत अधिक उपकरण न होने के कारण सामान्य लोगों के एक पूरे समुदाय ने नवाचार के एक चतुर स्तर को प्रेरित किया है। एआई डेवलपर बनने का क्या समय है।

मैथ्यू लॉज डिफ़ब्लू के सीईओ हैं, जो एक AI फ़ॉर कोड स्टार्टअप है। उनके पास एनाकोंडा और वीएमवेयर जैसी कंपनियों में उत्पाद नेतृत्व में 25+ वर्षों का विविध अनुभव है। लॉज वर्तमान में गुड लॉ प्रोजेक्ट के बोर्ड में कार्यरत है और रॉयल फोटोग्राफिक सोसाइटी के न्यासी बोर्ड का उपाध्यक्ष है।