Kör Mixtral 8x7b på Google Colab gratis - KDnuggets

Återutgiven av Platon

anhängare: 0

Kör Mixtral 8x7b på Google Colab gratis
Bild av författare

I det här inlägget kommer vi att utforska den nya toppmoderna modellen med öppen källkod som heter Mixtral 8x7b. Vi kommer också att lära oss hur man kommer åt det med hjälp av LLaMA C++-biblioteket och hur man kör stora språkmodeller på minskad datoranvändning och minne.

Mixtral 8x7b är en högkvalitativ sparsam blandning av experter (SMoE) modell med öppna vikter, skapad av Mistral AI. Den är licensierad under Apache 2.0 och överträffar Llama 2 70B på de flesta benchmarks samtidigt som den har 6 gånger snabbare slutledning. Mixtral matchar eller slår GPT3.5 på de flesta standardriktmärken och är den bästa modellen med öppen vikt när det gäller kostnad/prestanda.

Kör Mixtral 8x7b på Google Colab gratis
Bild från Blandning av experter

Mixtral 8x7B använder ett gles blandning-av-expert-nätverk för endast avkodare. Detta involverar ett feedforward-block som väljer från 8 grupper av parametrar, med ett routernätverk som väljer två av dessa grupper för varje token, och kombinerar deras utdata additivt. Denna metod förbättrar modellens parameterantal samtidigt som den hanterar kostnader och latens, vilket gör den lika effektiv som en 12.9B-modell, trots att den har totalt 46.7B parametrar.

Mixtral 8x7B-modellen utmärker sig i att hantera ett brett sammanhang av 32k tokens och stöder flera språk, inklusive engelska, franska, italienska, tyska och spanska. Den visar stark prestanda i kodgenerering och kan finjusteras till en instruktionsföljande modell, vilket ger höga poäng på riktmärken som MT-Bench.

LLaMA.cpp är ett C/C++-bibliotek som tillhandahåller ett högpresterande gränssnitt för stora språkmodeller (LLM) baserat på Facebooks LLM-arkitektur. Det är ett lättviktigt och effektivt bibliotek som kan användas för en mängd olika uppgifter, inklusive textgenerering, översättning och svar på frågor. LLaMA.cpp stöder ett brett utbud av LLM, inklusive LLaMA, LLaMA 2, Falcon, Alpaca, Mistral 7B, Mixtral 8x7B och GPT4ALL. Den är kompatibel med alla operativsystem och kan fungera på både CPU:er och GPU:er.

I det här avsnittet kommer vi att köra webbapplikationen llama.cpp på Colab. Genom att skriva några rader kod kommer du att kunna uppleva den nya toppmoderna modellens prestanda på din PC eller på Google Colab.

Komma igång

Först kommer vi att ladda ner llama.cpp GitHub-förvaret med hjälp av kommandoraden nedan:

!git clone --depth 1 https://github.com/ggerganov/llama.cpp.git

Efter det kommer vi att byta katalog till förvaret och installera llama.cpp med hjälp av kommandot `make`. Vi installerar llama.cpp för NVidia GPU med CUDA installerat.

%cd llama.cpp

!make LLAMA_CUBLAS=1

Ladda ner modellen

Vi kan ladda ner modellen från Hugging Face Hub genom att välja lämplig version av modellfilen `.gguf`. Mer information om olika versioner finns i TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF.

Kör Mixtral 8x7b på Google Colab gratis
Bild från TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF

Du kan använda kommandot `wget` för att ladda ner modellen i den aktuella katalogen.

!wget https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF/resolve/main/mixtral-8x7b-instruct-v0.1.Q2_K.gguf

Extern adress för LLaMA Server

När vi kör LLaMA-servern kommer den att ge oss en lokal värd-IP som är värdelös för oss på Colab. Vi behöver anslutningen till localhost-proxyn genom att använda Colab-kärnproxyporten.

Efter att ha kört koden nedan får du den globala hyperlänken. Vi kommer att använda denna länk för att komma åt vår webbapp senare.

from google.colab.output import eval_js
print(eval_js("google.colab.kernel.proxyPort(6589)"))

https://8fx1nbkv1c8-496ff2e9c6d22116-6589-colab.googleusercontent.com/

Kör servern

För att köra LLaMA C++-servern måste du ange serverkommandot med platsen för modellfilen och rätt portnummer. Det är viktigt att se till att portnumret matchar det vi initierade i föregående steg för proxyporten.

%cd /content/llama.cpp

!./server -m mixtral-8x7b-instruct-v0.1.Q2_K.gguf -ngl 27 -c 2048 --port 6589

Kör Mixtral 8x7b på Google Colab gratis

Chattwebbappen kan nås genom att klicka på proxyportens hyperlänk i föregående steg eftersom servern inte körs lokalt.

LLaMA C++ webbapp

Innan vi börjar använda chatboten måste vi anpassa den. Byt ut "LLaMA" mot ditt modellnamn i meddelandet. Ändra dessutom användarnamnet och botnamnet för att skilja mellan de genererade svaren.

Kör Mixtral 8x7b på Google Colab gratis

Börja chatta genom att scrolla ner och skriva i chattsektionen. Ställ gärna tekniska frågor som andra modeller med öppen källkod inte har kunnat besvara ordentligt.

Kör Mixtral 8x7b på Google Colab gratis

Om du stöter på problem med appen kan du prova att köra den på egen hand med min Google Colab: https://colab.research.google.com/drive/1gQ1lpSH-BhbKN-DdBmq5r8-8Rw8q1p9r?usp=sharing

Den här handledningen ger en omfattande guide om hur du kör den avancerade modellen med öppen källkod, Mixtral 8x7b, på Google Colab med hjälp av LLaMA C++-biblioteket. Jämfört med andra modeller levererar Mixtral 8x7b överlägsen prestanda och effektivitet, vilket gör den till en utmärkt lösning för dem som vill experimentera med stora språkmodeller men inte har omfattande beräkningsresurser. Du kan enkelt köra det på din bärbara dator eller på en gratis molndator. Den är användarvänlig och du kan till och med distribuera din chattapp för andra att använda och experimentera med.

Jag hoppas att du tyckte att den här enkla lösningen för att köra den stora modellen var till hjälp. Jag letar alltid efter enkla och bättre alternativ. Om du har en ännu bättre lösning, vänligen meddela mig, så kommer jag att täcka det nästa gång.

Abid Ali Awan (@1abidaliawan) är en certifierad datavetare som älskar att bygga modeller för maskininlärning. För närvarande fokuserar han på att skapa innehåll och skriva tekniska bloggar om maskininlärning och datavetenskap. Abid har en magisterexamen i Technology Management och en kandidatexamen i telekommunikationsteknik. Hans vision är att bygga en AI-produkt med hjälp av ett grafiskt neuralt nätverk för studenter som kämpar med psykisk ohälsa.