एलएलएम निष्पादन को सरल बनाने के लिए लामाफ़ाइल्स का उपयोग करना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

परिचय

बड़े भाषा मॉडल चलाना हमेशा एक कठिन प्रक्रिया रही है। इन एलएलएम को लोड करने के लिए किसी को तीसरे पक्ष के सॉफ्टवेयर का एक सेट डाउनलोड करना होगा या पायथन डाउनलोड करना होगा और ढेर सारी पाइटोरच और हगिंगफेस लाइब्रेरीज़ डाउनलोड करके एक वातावरण बनाना होगा। यदि पायथोनिक दृष्टिकोण से गुजर रहे हैं, तो मॉडल को डाउनलोड करने और चलाने के लिए कोड लिखने की प्रक्रिया से गुजरना होगा। यह मार्गदर्शिका इन एलएलएम को चलाने के लिए एक आसान दृष्टिकोण पर गौर करेगी।

सीखने के मकसद

पारंपरिक एलएलएम निष्पादन की चुनौतियों को समझें
Llamafiles की नवीन अवधारणा को समझें
अपने स्वयं के Llamafile निष्पादनयोग्यों को आसानी से डाउनलोड करना और चलाना सीखें
परिमाणित एलएलएम से लैमफाइल्स बनाना सीखना
इस दृष्टिकोण की सीमाओं को पहचानें

इस लेख के एक भाग के रूप में प्रकाशित किया गया था डेटा साइंस ब्लॉगथॉन।

विषय - सूची

बड़े भाषा मॉडल के साथ समस्याएँ

बड़े भाषा मॉडल (एलएलएम) ने हमारे कंप्यूटर के साथ बातचीत करने, पाठ उत्पन्न करने, भाषाओं का अनुवाद करने, विभिन्न प्रकार की रचनात्मक सामग्री लिखने और यहां तक कि जानकारीपूर्ण तरीके से आपके प्रश्नों का उत्तर देने में क्रांति ला दी है। हालाँकि, इन शक्तिशाली मॉडलों को आपके कंप्यूटर पर चलाना अक्सर चुनौतीपूर्ण रहा है।

एलएलएम चलाने के लिए, हमें पायथन और बहुत सारी एआई निर्भरताएं डाउनलोड करनी होंगी, और उसके शीर्ष पर, हमें उन्हें डाउनलोड करने और चलाने के लिए कोड भी लिखना होगा। यहां तक कि बड़े भाषा मॉडल के लिए उपयोग में आसान यूआई स्थापित करते समय भी, इसमें कई सेटअप शामिल होते हैं, जो आसानी से गलत हो सकते हैं। इन्हें निष्पादन योग्य की तरह स्थापित करना और चलाना कोई सरल प्रक्रिया नहीं है।

लामाफाइल्स क्या हैं?

लोकप्रिय ओपन-सोर्स बड़े भाषा मॉडल के साथ आसानी से काम करने के लिए Llamafiles बनाई गई हैं। ये एकल-फ़ाइल निष्पादन योग्य हैं। यह बिल्कुल एलएलएम डाउनलोड करने और उसे एक निष्पादन योग्य की तरह चलाने जैसा है। पुस्तकालयों की प्रारंभिक स्थापना की कोई आवश्यकता नहीं है। यह सब llama.cpp और कॉस्मोपॉलिटन libc के कारण संभव हुआ, जो LLM को विभिन्न OSes पर चलाता है।

llama.cpp को जॉर्जी गेर्गनोव द्वारा बड़े भाषा मॉडल को परिमाणित प्रारूप में चलाने के लिए विकसित किया गया था ताकि वे सीपीयू पर चल सकें। Llama.cpp एक सी लाइब्रेरी है जो हमें उपभोक्ता हार्डवेयर पर मात्राबद्ध एलएलएम चलाने की सुविधा देती है। दूसरी ओर, कॉस्मोपॉलिटन लिबसी एक अन्य सी लाइब्रेरी है जो एक बाइनरी बनाती है जो दुभाषिया की आवश्यकता के बिना किसी भी ओएस (विंडोज, मैक, उबंटू) पर चल सकती है। तो Llamafile इन पुस्तकालयों के शीर्ष पर बनाया गया है, जो इसे एकल-फ़ाइल निष्पादन योग्य LLM बनाने की सुविधा देता है

उपलब्ध मॉडल जीजीयूएफ परिमाणित प्रारूप में हैं। जीजीयूएफ बड़े भाषा मॉडल के लिए एक फ़ाइल स्वरूप है, जिसे llama.cpp के निर्माता जॉर्जी गेर्गानोव द्वारा विकसित किया गया है। जीजीयूएफ सीपीयू और जीपीयू पर बड़े भाषा मॉडल को प्रभावी ढंग से और कुशलता से संग्रहीत करने, साझा करने और लोड करने का एक प्रारूप है। जीजीयूएफ मॉडलों को उनके मूल 16-बिट फ्लोटिंग पॉइंट से 4-बिट या 8-बिट पूर्णांक प्रारूप में संपीड़ित करने के लिए एक परिमाणीकरण तकनीक का उपयोग करता है। इस परिमाणित मॉडल का वजन इस जीजीयूएफ प्रारूप में संग्रहीत किया जा सकता है

इससे 7 बिलियन पैरामीटर मॉडल के लिए 16GB VRAM वाले कंप्यूटर पर चलना आसान हो जाता है। हम जीपीयू की आवश्यकता के बिना बड़े भाषा मॉडल चला सकते हैं (हालांकि लामाफ़ाइल हमें जीपीयू पर एलएलएम चलाने की भी अनुमति देता है)। फिलहाल, LlaVa, मिस्ट्रल और विज़ार्डकोडर जैसे लोकप्रिय ओपन सोर्स लार्ज लैंग्वेज मॉडल की llamafiles डाउनलोड करने और चलाने के लिए आसानी से उपलब्ध हैं।

एक शॉट निष्पादनयोग्य

इस अनुभाग में, हम मल्टीमॉडल LlaVa Llamafile को डाउनलोड करेंगे और चलाने का प्रयास करेंगे। यहां, हम GPU के साथ काम नहीं करेंगे और मॉडल को CPU पर चलाएंगे। क्लिक करके आधिकारिक Llamafile GitHub रिपोजिटरी पर जाएँ यहाँ उत्पन्न करें और LlaVa 1.5 मॉडल डाउनलोड कर रहा हूं।

मॉडल डाउनलोड करें

उपरोक्त चित्र सभी उपलब्ध मॉडलों को उनके नाम, आकार और डाउनलोड करने योग्य लिंक के साथ दिखाता है। LlaVa 1.5 लगभग 4GB का है और यह एक शक्तिशाली मल्टी-मॉडल है जो छवियों को समझ सकता है। डाउनलोड किया गया मॉडल 7 बिलियन पैरामीटर मॉडल है जिसे 4-बिट्स में परिमाणित किया गया है। मॉडल डाउनलोड करने के बाद उस फोल्डर पर जाएं जहां से इसे डाउनलोड किया गया था।

फिर सीएमडी खोलें, उस फ़ोल्डर पर जाएँ जहाँ यह मॉडल डाउनलोड किया गया है, हमारे द्वारा डाउनलोड की गई फ़ाइल का नाम टाइप करें और एंटर दबाएँ।

llava-v1.5-7b-q4.llamafile

मैक और लिनक्स उपयोगकर्ताओं के लिए

मैक और लिनक्स के लिए, डिफ़ॉल्ट रूप से, इस फ़ाइल के लिए निष्पादन अनुमति बंद है। इसलिए, हमें llamafile के लिए निष्पादन अनुमति प्रदान करनी होगी, जिसे हम नीचे दिए गए कमांड को चलाकर कर सकते हैं।

chmod +x llava-v1.5-7b-q4.llamafile

यह llava-v1.5-7b-q4.llamafile के लिए निष्पादन अनुमति को सक्रिय करने के लिए है। इसके अलावा, मैक और लिनक्स पर फ़ाइल चलाने के लिए फ़ाइल नाम से पहले "./" जोड़ें। आपके द्वारा एंटर कीवर्ड दबाने के बाद, मॉडल को सिस्टम रैम में धकेल दिया जाएगा और निम्नलिखित आउटपुट दिखाएगा।

मैक और लिनक्स उपयोगकर्ताओं के लिए | लामाफ़ाइलें

फिर ब्राउज़र पॉप अप हो जाएगा और मॉडल URL http://127.0.0.1:8080/ पर चलने लगेगा

उपरोक्त तस्वीर डिफ़ॉल्ट प्रॉम्प्ट, उपयोगकर्ता नाम, एलएलएम नाम, प्रॉम्प्ट टेम्पलेट और चैट हिस्ट्री टेम्पलेट दिखाती है। इन्हें कॉन्फ़िगर किया जा सकता है, लेकिन अभी के लिए, हम डिफ़ॉल्ट मानों के साथ जाएंगे।

नीचे, हम टॉप पी, टॉप के, तापमान और अन्य जैसे कॉन्फ़िगर करने योग्य एलएलएम हाइपरपैरामीटर की भी जांच कर सकते हैं। इन्हें भी हम अभी डिफॉल्ट ही रहने देंगे। अब कुछ टाइप करते हैं और सेंड पर क्लिक करते हैं।

उपरोक्त तस्वीर में, हम देख सकते हैं कि हमने एक संदेश टाइप किया है और हमें प्रतिक्रिया भी मिली है। उसके नीचे, हम जांच सकते हैं कि हमें प्रति सेकंड लगभग 6 टोकन मिल रहे हैं, जो कि एक अच्छा टोकन/सेकंड है, यह देखते हुए कि हम इसे पूरी तरह से सीपीयू पर चला रहे हैं। इस बार, आइए इसे एक छवि के साथ आज़माएँ।

हालाँकि 100% सही नहीं है, मॉडल छवि से लगभग अधिकांश चीज़ें सही प्राप्त कर सकता है। आइए अब यह जांचने के लिए LlaVa के साथ मल्टी-टर्न बातचीत करें कि क्या उसे चैट इतिहास याद है।

उपरोक्त तस्वीर में, हम देख सकते हैं कि LlaVa LLM कॉन्वो को अच्छी तरह से बनाए रखने में सक्षम था। यह इतिहास की बातचीत में शामिल हो सकता है और फिर प्रतिक्रियाएँ उत्पन्न कर सकता है। यद्यपि अंतिम उत्पन्न उत्तर बिल्कुल सत्य नहीं है, फिर भी इसे उत्पन्न करने के लिए पिछले कॉन्वो को एकत्रित किया गया। तो इस तरह, हम एक लामाफ़ाइल डाउनलोड कर सकते हैं और उन्हें सॉफ़्टवेयर की तरह चला सकते हैं और उन डाउनलोड किए गए मॉडलों के साथ काम कर सकते हैं।

लामाफ़ाइलें बनाना

हमने Llamafile का एक डेमो देखा है जो पहले से ही आधिकारिक GitHub पर मौजूद था। अक्सर हम इन मॉडल्स के साथ काम नहीं करना चाहते. इसके बजाय, हम अपने बड़े भाषा मॉडल के एकल-फ़ाइल निष्पादन योग्य बनाना चाहते हैं। इस खंड में, हम एकल-फ़ाइल निष्पादनयोग्य बनाने की प्रक्रिया से गुजरेंगे, यानी, क्वांटाइज़्ड एलएलएम से लामा-फ़ाइलें।

एलएलएम चुनें

हम सबसे पहले एक बड़े भाषा मॉडल का चयन करके शुरुआत करेंगे। इस डेमो के लिए, हम TinyLlama का एक परिमाणित संस्करण चुनेंगे। यहां, हम TinyLlama का 8-बिट परिमाणित GGUF मॉडल डाउनलोड करेंगे (आप क्लिक कर सकते हैं) यहाँ उत्पन्न करें हगिंगफेस पर जाएं और मॉडल डाउनलोड करें)

नवीनतम लामाफ़ाइल डाउनलोड करें

आधिकारिक GitHub लिंक से नवीनतम llamafile ज़िप डाउनलोड किया जा सकता है। इसके अलावा, ज़िप डाउनलोड करें और ज़िप फ़ाइल निकालें। इस आलेख का वर्तमान संस्करण लामा फ़ाइल-0.6 है। लामा निकालने के बाद, फ़ाइल फ़ोल्डर वाले बिन फ़ोल्डर में नीचे दी गई तस्वीर की तरह फ़ाइलें होंगी।

अब डाउनलोड किए गए TinyLlama 8-बिट क्वांटाइज़्ड मॉडल को इस बिन फ़ोल्डर में ले जाएँ। एकल-फ़ाइल निष्पादनयोग्य बनाने के लिए, हमें llamafile के बिन फ़ोल्डर में एक .args फ़ाइल बनाने की आवश्यकता है। इस फ़ाइल में, हमें निम्नलिखित सामग्री जोड़नी होगी:

-m
tinyllama-1.1b-chat-v0.3.Q8_0.gguf
--host
0.0.0.0
...

पहली पंक्ति -m ध्वज को इंगित करती है। यह लामाफाइल को बताता है कि हम एक मॉडल के वजन में लोड कर रहे हैं।
दूसरी पंक्ति में, हम उस मॉडल का नाम निर्दिष्ट करते हैं जिसे हमने डाउनलोड किया है, जो उसी निर्देशिका में मौजूद है जिसमें .args फ़ाइल मौजूद है, यानी, llamafile का बिन फ़ोल्डर।
तीसरी पंक्ति में, हम होस्ट ध्वज जोड़ते हैं, जो दर्शाता है कि हम निष्पादन योग्य फ़ाइल चलाते हैं और इसे वेब सर्वर पर होस्ट करना चाहते हैं।
अंत में, अंतिम पंक्ति में, हम उस पते का उल्लेख करते हैं जहां हम होस्ट करना चाहते हैं, जो लोकलहोस्ट पर मैप होता है। इसके बाद तीन बिंदु हैं, जो निर्दिष्ट करते हैं कि हम अपने लामाफ़ाइल के बनने के बाद उसमें तर्क पारित कर सकते हैं।
इन पंक्तियों को .args फ़ाइल में जोड़ें और इसे सहेजें।

विंडोज उपयोगकर्ताओं के लिए

अब, अगला कदम विंडोज़ उपयोगकर्ताओं के लिए है। यदि विंडोज़ पर काम कर रहे हैं, तो हमें WSL के माध्यम से लिनक्स स्थापित करना होगा। यदि नहीं तो क्लिक करें यहाँ उत्पन्न करें WSL के माध्यम से Linux स्थापित करने के चरणों से गुज़रने के लिए। मैक और लिनक्स में, किसी अतिरिक्त कदम की आवश्यकता नहीं है। अब टर्मिनल में llamafile फ़ोल्डर का बिन फ़ोल्डर खोलें (यदि विंडोज़ पर काम कर रहे हैं, तो इस निर्देशिका को WSL में खोलें) और निम्नलिखित कमांड टाइप करें।

cp llamafile tinyllama-1.1b-chat-v0.3.Q8_0.llamafile

यहां, हम एक नई फ़ाइल बना रहे हैं जिसका नाम tinyllama-1.1b-chat-v0.3.Q3_0.llamafile है; अर्थात्, हम .llamafile एक्सटेंशन के साथ एक फ़ाइल बना रहे हैं और फ़ाइल llamafile को इस नई फ़ाइल में ले जा रहे हैं। अब, इसका अनुसरण करते हुए, हम यह अगला कमांड टाइप करेंगे।

./zipalign -j0 tinyllama-1.1b-chat-v0.3.Q8_0.llamafile tinyllama-1.1b-chat-v0.3.Q8_0.gguf .args

यहां हम उस ज़िपलाइन फ़ाइल के साथ काम करते हैं जो GitHub से llamafile ज़िप डाउनलोड करने पर आई थी। हम अपने परिमाणित टाइनीलामा के लिए लामाफ़ाइल बनाने के लिए इस कमांड के साथ काम करते हैं। इस ज़िपलाइन कमांड में, हम tinyllama-1.1b-chat-v0.3.Q8_0.llamafile को पास करते हैं जिसे हमने पिछले चरण में बनाया है, फिर हम tinyllama-1.1b-chat-v0.3.Q8_0.llamafile को पास करते हैं मॉडल जो हमारे पास बिन फ़ोल्डर में है और अंत में .args फ़ाइल में पास होता है जिसे हमने पहले बनाया है।

यह अंततः हमारी एकल फ़ाइल निष्पादन योग्य tinyllama-1.1b-chat-v0.3.Q8_0.llamafile का उत्पादन करेगा। यह सुनिश्चित करने के लिए कि हम एक ही पृष्ठ पर हैं, बिन फ़ोल्डर में अब निम्नलिखित फ़ाइलें हैं।

अब, हम tinyllama-1.1b-chat-v0.3.Q8_0.llama फ़ाइल को उसी तरह चला सकते हैं जैसे हमने पहले चलाया था। विंडोज़ में, आप .llamafile का नाम बदलकर .exe भी कर सकते हैं और इसे डबल-क्लिक करके चला सकते हैं।

OpenAI संगत सर्वर

यह अनुभाग Llamfile के माध्यम से LLM को सर्वर करने के तरीके पर गौर करेगा। हमने देखा है कि जब हम लामा फ़ाइल चलाते हैं, तो ब्राउज़र खुल जाता है, और हम वेबयूआई के माध्यम से एलएलएम के साथ बातचीत कर सकते हैं। इसे मूल रूप से हम बड़े भाषा मॉडल की मेजबानी कहते हैं।

एक बार जब हम लामाफ़ाइल चलाते हैं, तो हम संबंधित एलएलएम के साथ एंडपॉइंट के रूप में बातचीत कर सकते हैं क्योंकि मॉडल को पोर्ट 8080 पर स्थानीय होस्ट पर परोसा जा रहा है। सर्वर ओपनएआई एपीआई प्रोटोकॉल का पालन करता है, यानी, ओपनएआई जीपीटी एंडपॉइंट के समान, इस प्रकार बनाता है OpenAI GPT मॉडल और Llamafile के साथ चलने वाले LLM के बीच स्विच करना आसान है।

यहां, हम पहले से निर्मित TinyLlama llamafile चलाएंगे। अब, यह लोकलहोस्ट 8080 पर चलना चाहिए। अब हम इसे Python में OpenAI API के माध्यम से परीक्षण करेंगे

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8080/v1", 
    api_key = "sk-no-key-required"
)
completion = client.chat.completions.create(
    model="TinyLlama",
    messages=[
        {"role": "system", "content": "You are a usefull AI 
        Assistant who helps answering user questions"},
        {"role": "user", "content": "Distance between earth to moon?"}
    ]
)
print(completion.choices[0].message.content)

यहां, हम OpenAI लाइब्रेरी के साथ काम करते हैं। लेकिन OpenAI समापन बिंदु को निर्दिष्ट करने के बजाय, हम उस URL को निर्दिष्ट करते हैं जहां हमारा TinyLlama होस्ट किया गया है और देते हैं "sk-नहीं-टोकन-आवश्यक" api_key के लिए
फिर, क्लाइंट हमारे टाइनीलामा एंडपॉइंट से जुड़ जाएगा
अब, हम OpenAI के साथ कैसे काम करते हैं, उसी तरह हम अपने TinyLlama के साथ चैट करने के लिए कोड का उपयोग कर सकते हैं।
इसके लिए हम साथ काम करते हैं पूर्तियों OpenAI की कक्षा। हम नया बनाते हैं पूर्तियों साथ ।बनाएं() आपत्ति करें और मॉडल नाम और संदेश जैसे विवरण भेजें।
संदेश शब्दकोशों की एक सूची के रूप में हैं, जहां हमारी भूमिका है, जो सिस्टम, उपयोगकर्ता या सहायक हो सकती है, और हमारे पास सामग्री है।
अंत में, हम उपरोक्त प्रिंट स्टेटमेंट के माध्यम से उत्पन्न जानकारी पुनः प्राप्त कर सकते हैं।

उपरोक्त का आउटपुट नीचे देखा जा सकता है।

इस तरह, हम llamafiles का लाभ उठा सकते हैं और OpenAI API को उस llamafile से आसानी से बदल सकते हैं जिसे हमने चलाने के लिए चुना है।

लामाफ़ाइल्स सीमाएँ

हालाँकि क्रांतिकारी, लामाफ़ाइलें अभी भी विकासाधीन हैं। कुछ सीमाओं में शामिल हैं:

सीमित मॉडल चयन: वर्तमान में, सभी एलएलएम लामाफाइल्स के रूप में उपलब्ध नहीं हैं। पूर्व-निर्मित Llamafiles का वर्तमान चयन अभी भी बढ़ रहा है। वर्तमान में, Llamafiles Llama 2, LlaVa, Mistral और Wizard Coder के लिए उपलब्ध हैं।
हार्डवेयर आवश्यकताएँ: एलएलएम चलाने के लिए, यहां तक कि लामाफाइल्स के माध्यम से भी, अभी भी बहुत अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। हालाँकि उन्हें पारंपरिक तरीकों की तुलना में चलाना आसान है, पुराने या कम शक्तिशाली कंप्यूटरों को उन्हें सुचारू रूप से चलाने के लिए मदद की आवश्यकता हो सकती है।
सुरक्षा चिंताएं: अविश्वसनीय स्रोतों से निष्पादनयोग्य डाउनलोड करने और चलाने में अंतर्निहित जोखिम होते हैं। इसलिए एक भरोसेमंद प्लेटफ़ॉर्म होना चाहिए जहां हम इन लामाफ़ाइल्स को डाउनलोड कर सकें।

लामाफ़ाइल्स बनाम बाकी

Llamafiles से पहले, बड़े भाषा मॉडल चलाने के विभिन्न तरीके थे। एक के माध्यम से था llama_cpp_python. यह llama.cpp का पायथन संस्करण है जो हमें लैपटॉप और डेस्कटॉप पीसी जैसे उपभोक्ता हार्डवेयर पर परिमाणित बड़े भाषा मॉडल चलाने की सुविधा देता है। लेकिन इसे चलाने के लिए, हमें पायथन और यहां तक कि टॉर्च, हगिंगफेस, ट्रांसफॉर्मर और कई अन्य गहन शिक्षण पुस्तकालयों को डाउनलोड और इंस्टॉल करना होगा। और उसके बाद, इसमें मॉडल को चलाने के लिए कोड की कई पंक्तियाँ लिखना शामिल था।

फिर भी, कभी-कभी, हमें निर्भरता की समस्याओं के कारण समस्याओं का सामना करना पड़ सकता है (अर्थात, कुछ पुस्तकालयों में आवश्यकता से कम या अधिक संस्करण होते हैं)। और वहाँ भी है सीट्रांसफार्मर लाइब्रेरी जो हमें परिमाणित एलएलएम चलाने की सुविधा देती है। इसके लिए भी उसी प्रक्रिया की आवश्यकता है जिसकी हमने llama_cpp_python के लिए चर्चा की है

और फिर, वहाँ है ओलामा. बड़े भाषा मॉडल, विशेष रूप से परिमाणित मॉडल को आसानी से लोड करने और चलाने के लिए उपयोग में आसानी के कारण ओलामा एआई समुदाय में अत्यधिक सफल रहा है। ओलामा एलएलएम के लिए एक प्रकार का टीयूआई (टर्मिनल यूजर इंटरफेस) है। ओलामा और लामाफाइल के बीच एकमात्र अंतर साझा करने की क्षमता का है। यानी अगर चाहूं तो मैं अपना model.llamafile किसी के भी साथ साझा कर सकता हूं और वे इसे बिना कोई अतिरिक्त सॉफ्टवेयर डाउनलोड किए चला सकते हैं। लेकिन ओलामा के मामले में, मुझे model.gguf फ़ाइल साझा करने की आवश्यकता है, जिसे दूसरा व्यक्ति केवल तभी चला सकता है जब वे ओलामा सॉफ़्टवेयर स्थापित करें या उपरोक्त पायथन लाइब्रेरीज़ के माध्यम से।

संसाधनों के संबंध में, उन सभी को समान मात्रा में संसाधनों की आवश्यकता होती है क्योंकि ये सभी विधियाँ परिमाणित मॉडल को चलाने के लिए नीचे दिए गए llama.cpp का उपयोग करती हैं। यह केवल उपयोग में आसानी के बारे में है जहां इनके बीच अंतर हैं।

निष्कर्ष

एलएलएम को आसानी से चलाने योग्य बनाने की दिशा में लामाफाइल्स एक महत्वपूर्ण कदम है। उनके उपयोग में आसानी और पोर्टेबिलिटी डेवलपर्स, शोधकर्ताओं और आकस्मिक उपयोगकर्ताओं के लिए संभावनाओं की दुनिया खोलती है। हालांकि सीमाएं हैं, एलएलएम पहुंच को लोकतांत्रिक बनाने के लिए लामाफाइल्स की क्षमता स्पष्ट है। चाहे आप एक विशेषज्ञ डेवलपर हों या एक जिज्ञासु नौसिखिया, Llamafiles LLM की दुनिया की खोज के लिए रोमांचक संभावनाएं खोलता है। इस गाइड में, हमने Llamafiles को कैसे डाउनलोड करें और यहां तक कि हमारे परिमाणित मॉडल के साथ अपनी खुद की Llamafiles कैसे बनाएं, इस पर एक नज़र डाली है। . हमने OpenAI-संगत सर्वर पर भी नज़र डाली है जो Llamafiles चलाते समय बनाया गया है।

चाबी छीन लेना

Llamafiles एकल-फ़ाइल निष्पादन योग्य हैं जो बड़े भाषा मॉडल (एलएलएम) को चलाना आसान और अधिक आसानी से उपलब्ध कराते हैं।
वे जटिल सेटअप और कॉन्फ़िगरेशन की आवश्यकता को समाप्त करते हैं, जिससे उपयोगकर्ताओं को पायथन या जीपीयू आवश्यकताओं के बिना सीधे एलएलएम डाउनलोड करने और चलाने की अनुमति मिलती है।
Llamafiles अभी LlaVa, मिस्ट्रल और विज़ार्डकोडर सहित ओपन-सोर्स LLM के सीमित चयन के लिए उपलब्ध हैं।
सुविधाजनक होते हुए भी, Llamafiles में अभी भी सीमाएँ हैं, जैसे हार्डवेयर आवश्यकताएँ और अविश्वसनीय स्रोतों से निष्पादन योग्य डाउनलोड करने से जुड़ी सुरक्षा चिंताएँ।
इन सीमाओं के बावजूद, Llamafiles डेवलपर्स, शोधकर्ताओं और यहां तक कि आकस्मिक उपयोगकर्ताओं के लिए एलएलएम पहुंच को लोकतांत्रिक बनाने की दिशा में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है।

आम सवाल-जवाब

Q1. Llamafiles का उपयोग करने के क्या लाभ हैं?

A. Llamafiles पारंपरिक LLM कॉन्फ़िगरेशन विधियों की तुलना में कई लाभ प्रदान करती है। वे एलएलएम को स्थापित करना और निष्पादित करना आसान और तेज़ बनाते हैं क्योंकि आपको पायथन स्थापित करने या जीपीयू रखने की आवश्यकता नहीं है। यह एलएलएम को व्यापक दर्शकों के लिए अधिक आसानी से उपलब्ध कराता है। इसके अतिरिक्त, Llamafiles विभिन्न ऑपरेटिंग सिस्टमों पर चल सकती हैं।

Q2. Llamafiles की सीमाएँ क्या हैं?

उ. जबकि लामाफ़ाइलें कई लाभ प्रदान करती हैं, उनकी कुछ सीमाएँ भी हैं। लामाफाइल्स में उपलब्ध एलएलएम का चयन पारंपरिक तरीकों की तुलना में सीमित है। इसके अतिरिक्त, Llamafiles के माध्यम से LLM चलाने के लिए अभी भी अच्छी मात्रा में हार्डवेयर संसाधनों की आवश्यकता होती है, और पुराने या कम शक्तिशाली कंप्यूटर इसका समर्थन नहीं कर सकते हैं। अंत में, सुरक्षा संबंधी चिंताएँ अविश्वसनीय स्रोतों से निष्पादनयोग्यों को डाउनलोड करने और चलाने से जुड़ी हैं।

Q3. मैं Llamafiles के साथ कैसे शुरुआत कर सकता हूँ?

उ. Llamafiles के साथ आरंभ करने के लिए, आप आधिकारिक Llamafile GitHub रिपोजिटरी पर जा सकते हैं। वहां, आप जिस एलएलएम मॉडल का उपयोग करना चाहते हैं उसके लिए Llamafile डाउनलोड कर सकते हैं। एक बार जब आप फ़ाइल डाउनलोड कर लेते हैं, तो आप इसे सीधे एक निष्पादन योग्य की तरह चला सकते हैं।

Q4. क्या मैं Llamafiles के साथ अपने स्वयं के LLM मॉडल का उपयोग कर सकता हूँ?

उ. नहीं. वर्तमान में, Llamafiles केवल विशिष्ट पूर्व-निर्मित मॉडल का समर्थन करता है। भविष्य के संस्करणों के लिए हमारी स्वयं की Llamafiles बनाने की योजना बनाई गई है।

Q5. लामाफाइल्स की क्या संभावनाएं हैं?

उ. लामाफाइल्स के डेवलपर्स उपलब्ध एलएलएम मॉडलों के चयन का विस्तार करने, उन्हें अधिक कुशलता से चलाने और सुरक्षा उपायों को लागू करने के लिए काम कर रहे हैं। इन प्रगतियों का लक्ष्य कम तकनीकी पृष्ठभूमि वाले अधिक लोगों के लिए Llamafiles को और भी अधिक उपलब्ध और सुरक्षित बनाना है।

इस लेख में दिखाया गया मीडिया एनालिटिक्स विद्या के स्वामित्व में नहीं है और इसका उपयोग लेखक के विवेक पर किया जाता है।