Kører Mixtral 8x7b på Google Colab gratis - KDnuggets

Kører Mixtral 8x7b på Google Colab gratis – KDnuggets

Kildeknude: 3059535

Kører Mixtral 8x7b på Google Colab gratis
Billede af forfatter
 

I dette indlæg vil vi udforske den nye state-of-the-art open source-model kaldet Mixtral 8x7b. Vi vil også lære, hvordan man får adgang til det ved hjælp af LLaMA C++-biblioteket, og hvordan man kører store sprogmodeller på reduceret databehandling og hukommelse.

Mixtral 8x7b er en højkvalitets sparsom blanding af eksperter (SMoE) model med åbne vægte, skabt af Mistral AI. Den er licenseret under Apache 2.0 og overgår Llama 2 70B på de fleste benchmarks, mens den har 6x hurtigere inferens. Mixtral matcher eller slår GPT3.5 på de fleste standard benchmarks og er den bedste åbenvægtsmodel med hensyn til omkostninger/ydelse.

 

Kører Mixtral 8x7b på Google Colab gratis
Billede fra Blanding af eksperter
 

Mixtral 8x7B bruger et sparsomt netværk af eksperter, der kun består af dekoder. Dette involverer en feedforward-blok, der vælger fra 8 grupper af parametre, hvor et routernetværk vælger to af disse grupper for hvert token og kombinerer deres output additivt. Denne metode forbedrer modellens parameterantal, mens den administrerer omkostninger og latens, hvilket gør den lige så effektiv som en 12.9B-model, på trods af at den har 46.7B samlede parametre.

Mixtral 8x7B-modellen udmærker sig ved at håndtere en bred kontekst af 32k tokens og understøtter flere sprog, inklusive engelsk, fransk, italiensk, tysk og spansk. Den demonstrerer stærk ydeevne i kodegenerering og kan finjusteres til en instruktionsfølgende model, der opnår høje scores på benchmarks som MT-Bench.

LLaMA.cpp er et C/C++-bibliotek, der giver en højtydende grænseflade til store sprogmodeller (LLM'er) baseret på Facebooks LLM-arkitektur. Det er et letvægts og effektivt bibliotek, der kan bruges til en række forskellige opgaver, herunder tekstgenerering, oversættelse og besvarelse af spørgsmål. LLaMA.cpp understøtter en lang række LLM'er, herunder LLaMA, LLaMA 2, Falcon, Alpaca, Mistral 7B, Mixtral 8x7B og GPT4ALL. Den er kompatibel med alle operativsystemer og kan fungere på både CPU'er og GPU'er.

I dette afsnit vil vi køre webapplikationen llama.cpp på Colab. Ved at skrive et par linjer kode vil du være i stand til at opleve den nye state-of-the-art modelydelse på din pc eller på Google Colab.

Kom godt i gang

Først vil vi downloade llama.cpp GitHub-lageret ved hjælp af kommandolinjen nedenfor: 

!git clone --depth 1 https://github.com/ggerganov/llama.cpp.git

Derefter vil vi ændre mappe til depotet og installere llama.cpp ved at bruge kommandoen `make`. Vi installerer llama.cpp til NVidia GPU'en med CUDA installeret. 

%cd llama.cpp

!make LLAMA_CUBLAS=1

Download modellen

Vi kan downloade modellen fra Hugging Face Hub ved at vælge den passende version af `.gguf`-modelfilen. Mere information om forskellige versioner kan findes i TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF.

 

Kører Mixtral 8x7b på Google Colab gratis
Billede fra TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF
 

Du kan bruge kommandoen `wget` til at downloade modellen i den aktuelle mappe. 

!wget https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF/resolve/main/mixtral-8x7b-instruct-v0.1.Q2_K.gguf

Ekstern adresse til LLaMA Server

Når vi kører LLaMA-serveren vil den give os en localhost-IP, som er ubrugelig for os på Colab. Vi har brug for forbindelsen til localhost-proxyen ved at bruge Colab-kernens proxyport. 

Når du har kørt koden nedenfor, får du det globale hyperlink. Vi vil bruge dette link til at få adgang til vores webapp senere. 

from google.colab.output import eval_js
print(eval_js("google.colab.kernel.proxyPort(6589)"))

 

https://8fx1nbkv1c8-496ff2e9c6d22116-6589-colab.googleusercontent.com/

Kørsel af serveren

For at køre LLaMA C++-serveren skal du angive serverkommandoen med placeringen af ​​modelfilen og det korrekte portnummer. Det er vigtigt at sikre sig, at portnummeret matcher det, vi startede i det foregående trin for proxyporten.  

%cd /content/llama.cpp

!./server -m mixtral-8x7b-instruct-v0.1.Q2_K.gguf -ngl 27 -c 2048 --port 6589

 

Kører Mixtral 8x7b på Google Colab gratis
 

Chat-webappen kan tilgås ved at klikke på proxyport-hyperlinket i det foregående trin, da serveren ikke kører lokalt.

LLaMA C++ Webapp

Før vi begynder at bruge chatbotten, skal vi tilpasse den. Erstat "LLaMA" med dit modelnavn i promptsektionen. Rediger desuden brugernavnet og botnavnet for at skelne mellem de genererede svar.

 

Kører Mixtral 8x7b på Google Colab gratis
 

Begynd at chatte ved at rulle ned og skrive i chatsektionen. Stil gerne tekniske spørgsmål, som andre open source-modeller ikke har kunnet besvare korrekt. 

 

Kører Mixtral 8x7b på Google Colab gratis
 

Hvis du støder på problemer med appen, kan du prøve at køre den på egen hånd ved hjælp af min Google Colab: https://colab.research.google.com/drive/1gQ1lpSH-BhbKN-DdBmq5r8-8Rw8q1p9r?usp=sharing

Denne vejledning giver en omfattende guide til, hvordan du kører den avancerede open source-model, Mixtral 8x7b, på Google Colab ved hjælp af LLaMA C++-biblioteket. Sammenlignet med andre modeller leverer Mixtral 8x7b overlegen ydeevne og effektivitet, hvilket gør det til en fremragende løsning for dem, der ønsker at eksperimentere med store sprogmodeller, men ikke har omfattende beregningsressourcer. Du kan nemt køre det på din bærbare computer eller på en gratis cloud compute. Det er brugervenligt, og du kan endda implementere din chat-app, så andre kan bruge og eksperimentere med.

Jeg håber, du fandt denne enkle løsning til at køre den store model nyttig. Jeg leder altid efter enkle og bedre muligheder. Hvis du har en endnu bedre løsning, så lad mig det vide, så dækker jeg det næste gang.
 
 

Abid Ali Awan (@1abidaliawan) er en certificeret dataforsker, der elsker at bygge maskinlæringsmodeller. I øjeblikket fokuserer han på indholdsskabelse og skriver tekniske blogs om maskinlæring og datavidenskabsteknologier. Abid har en kandidatgrad i teknologiledelse og en bachelorgrad i telekommunikationsingeniør. Hans vision er at bygge et AI-produkt ved hjælp af et grafisk neuralt netværk til studerende, der kæmper med psykisk sygdom.

Tidsstempel:

Mere fra KDnuggets