Kjører Mixtral 8x7b på Google Colab gratis - KDnuggets

Publisert av Platon

Følgere: 0

Kjører Mixtral 8x7b på Google Colab gratis
Bilde av forfatter

I dette innlegget vil vi utforske den nye state-of-the-art åpen kildekode-modellen kalt Mixtral 8x7b. Vi vil også lære hvordan du får tilgang til det ved å bruke LLaMA C++-biblioteket og hvordan du kjører store språkmodeller på redusert databehandling og minne.

Mixtral 8x7b er en høykvalitets sparsom blanding av eksperter (SMoE) modell med åpne vekter, laget av Mistral AI. Den er lisensiert under Apache 2.0 og overgår Llama 2 70B på de fleste benchmarks, samtidig som den har 6 ganger raskere slutning. Mixtral matcher eller slår GPT3.5 på de fleste standard benchmarks og er den beste modellen med åpen vekt når det gjelder kostnad/ytelse.

Kjører Mixtral 8x7b på Google Colab gratis
Bilde fra Blanding av eksperter

Mixtral 8x7B bruker et dekoder-kun sparsom blanding av eksperter-nettverk. Dette innebærer en fremkoblingsblokk som velger fra 8 grupper med parametere, med et ruternettverk som velger to av disse gruppene for hvert token, og kombinerer utgangene deres additivt. Denne metoden forbedrer modellens parameterantall mens den administrerer kostnader og ventetid, noe som gjør den like effektiv som en 12.9B-modell, til tross for at den har 46.7B totale parametere.

Mixtral 8x7B-modellen utmerker seg i å håndtere en bred kontekst med 32k tokens og støtter flere språk, inkludert engelsk, fransk, italiensk, tysk og spansk. Den demonstrerer sterk ytelse i kodegenerering og kan finjusteres til en instruksjonsfølgende modell, og oppnår høye poengsum på benchmarks som MT-Bench.

LLaMA.cpp er et C/C++-bibliotek som gir et høyytelsesgrensesnitt for store språkmodeller (LLM) basert på Facebooks LLM-arkitektur. Det er et lett og effektivt bibliotek som kan brukes til en rekke oppgaver, inkludert tekstgenerering, oversettelse og svar på spørsmål. LLaMA.cpp støtter et bredt spekter av LLM-er, inkludert LLaMA, LLaMA 2, Falcon, Alpaca, Mistral 7B, Mixtral 8x7B og GPT4ALL. Den er kompatibel med alle operativsystemer og kan fungere på både CPUer og GPUer.

I denne delen skal vi kjøre nettapplikasjonen llama.cpp på Colab. Ved å skrive noen få linjer med kode, vil du kunne oppleve den nye toppmoderne modellytelsen på din PC eller på Google Colab.

Komme i gang

Først vil vi laste ned llama.cpp GitHub-depotet ved å bruke kommandolinjen nedenfor:

!git clone --depth 1 https://github.com/ggerganov/llama.cpp.git

Etter det vil vi endre katalog til depotet og installere llama.cpp ved å bruke `make`-kommandoen. Vi installerer llama.cpp for NVidia GPU med CUDA installert.

%cd llama.cpp

!make LLAMA_CUBLAS=1

Last ned modellen

Vi kan laste ned modellen fra Hugging Face Hub ved å velge riktig versjon av `.gguf`-modellfilen. Mer informasjon om ulike versjoner finner du i TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF.

Kjører Mixtral 8x7b på Google Colab gratis
Bilde fra TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF

Du kan bruke kommandoen `wget` for å laste ned modellen i gjeldende katalog.

!wget https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF/resolve/main/mixtral-8x7b-instruct-v0.1.Q2_K.gguf

Ekstern adresse for LLaMA Server

Når vi kjører LLaMA-serveren vil den gi oss en lokal verts-IP som er ubrukelig for oss på Colab. Vi trenger tilkoblingen til localhost-proxyen ved å bruke Colab-kjernens proxy-port.

Etter å ha kjørt koden nedenfor, får du den globale hyperkoblingen. Vi vil bruke denne lenken for å få tilgang til webappen vår senere.

from google.colab.output import eval_js
print(eval_js("google.colab.kernel.proxyPort(6589)"))

https://8fx1nbkv1c8-496ff2e9c6d22116-6589-colab.googleusercontent.com/

Kjører serveren

For å kjøre LLaMA C++-serveren, må du oppgi serverkommandoen med plasseringen av modellfilen og riktig portnummer. Det er viktig å sørge for at portnummeret samsvarer med det vi startet i forrige trinn for proxy-porten.

%cd /content/llama.cpp

!./server -m mixtral-8x7b-instruct-v0.1.Q2_K.gguf -ngl 27 -c 2048 --port 6589

Kjører Mixtral 8x7b på Google Colab gratis

Chat-webappen kan nås ved å klikke på proxy-porthyperkoblingen i forrige trinn siden serveren ikke kjører lokalt.

LLaMA C++ Webapp

Før vi begynner å bruke chatboten, må vi tilpasse den. Erstatt "LLaMA" med modellnavnet ditt i ledetekstdelen. I tillegg kan du endre brukernavnet og botnavnet for å skille mellom de genererte svarene.

Kjører Mixtral 8x7b på Google Colab gratis

Begynn å chatte ved å bla ned og skrive i chat-delen. Still gjerne tekniske spørsmål som andre open source-modeller ikke har klart å svare på.

Kjører Mixtral 8x7b på Google Colab gratis

Hvis du støter på problemer med appen, kan du prøve å kjøre den på egen hånd ved hjelp av min Google Colab: https://colab.research.google.com/drive/1gQ1lpSH-BhbKN-DdBmq5r8-8Rw8q1p9r?usp=sharing

Denne opplæringen gir en omfattende veiledning for hvordan du kjører den avanserte åpen kildekode-modellen, Mixtral 8x7b, på Google Colab ved å bruke LLaMA C++-biblioteket. Sammenlignet med andre modeller, leverer Mixtral 8x7b overlegen ytelse og effektivitet, noe som gjør den til en utmerket løsning for de som ønsker å eksperimentere med store språkmodeller, men ikke har omfattende beregningsressurser. Du kan enkelt kjøre den på den bærbare datamaskinen eller på en gratis nettskydatamaskin. Den er brukervennlig, og du kan til og med distribuere chat-appen din for andre å bruke og eksperimentere med.

Jeg håper du syntes denne enkle løsningen for å kjøre den store modellen var nyttig. Jeg leter alltid etter enkle og bedre alternativer. Hvis du har en enda bedre løsning, vennligst gi meg beskjed, så skal jeg dekke det neste gang.

Abid Ali Awan (@1abidaliawan) er en sertifisert dataforsker som elsker å bygge maskinlæringsmodeller. For tiden fokuserer han på innholdsskaping og skriver tekniske blogger om maskinlæring og datavitenskapsteknologier. Abid har en mastergrad i teknologiledelse og en bachelorgrad i telekommunikasjonsteknikk. Hans visjon er å bygge et AI-produkt ved å bruke et grafisk nevralt nettverk for studenter som sliter med psykiske lidelser.