Cloudflare lader AI slippe af netværkskanten

Genudgivet af Platon

Abonnenter: 0

Generative AI-modeller kan trænes i massive klynger af GPU'er, men Cloudflare hævder, at det oplagte sted at køre dem ikke kun er ved kanten, men i selve netværket.

Onsdag leveringsgiganten annoncerede en række AI-tjenester, der har til formål at fjerne kompleksiteten ved at implementere og køre store sprogmodeller (LLM'er) og andre maskinlæringsalgoritmer (ML) og samtidig opnå den lavest mulige latenstid.

Tja, faktisk ville den lavest mulige latenstid opnås ved at køre inferens-arbejdsbelastningen på brugerens enhed. Intel gjorde en stor aftale om dette, argumenterer fremkomsten af AI PC-generationen, i sidste uge hos Intel Innovation. Men selvom dette kan give mening i nogle tilfælde, hævder Cloudflare, at lokale enheder endnu ikke er kraftfulde nok.

"Dette gør netværket til slutningens guldlok. Ikke for langt, med tilstrækkelig regnekraft - helt rigtigt," skriver biz.

Serverløs til GPU'er

AI-pakken omfatter tre kernetjenester. Den første af disse er en udvidelse af dens serverløse Workers-platform til at understøtte GPU-accelererede arbejdsbelastninger. Tjenesten, der kaldes Workers AI, er designet til at strømline processen med at implementere forudtrænede modeller.

“Ingen maskinlæringsekspertise, ingen roden efter GPU'er. Du skal bare vælge en af de medfølgende modeller og gå,” hævder Cloudflare.

Vi får at vide, at platformen kører oven på Nvidia GPU'er, selvom Cloudflare ikke ville fortælle os, hvilke. "Den teknologi, Cloudflare har bygget, kan opdele en slutningsopgave på tværs af flere forskellige GPU'er, fordi vi tager os af planlægningen og systemet, og vi beslutter, hvilken chip eller chips der giver mest mening til at levere det," sagde den. Registret i en erklæring.

Af hensyn til enkelheden understøtter platformen ikke - i hvert fald ikke i første omgang - kundeleverede modeller. Vi får at vide, at den planlægger at udrulle dette funktionelt i fremtiden, men indtil videre er det begrænset til seks præ-trænede modeller, som inkluderer:

Metas Llama 2 7B Int8 til tekstgenerering
Meta's M2m100-1.2 til oversættelse
OpenAI's Whisper til talegenkendelse
Hugging Face's Distilbert-sst-2-int8 til tekstklassificering
Microsofts Resnet-50 til billedklassificering
Baai's bge-base-en-v1.5 til indlejringer

Cloudflare siger dog, at det arbejder på at udvide denne liste i den nærmeste fremtid. Ligesom mange AI-håbende har den det opfordret hjælp fra Hugging Face til at optimere yderligere modeller til tjenesten.

Det er ikke klart, om der er en grænse for størrelsen af modeller, som platformen kan understøtte, men den indledende liste giver nogle ledetråde. Cloudflare gør Metas syv milliarder parameter Llama 2 LLM tilgængelig, der kører på Int8, hvilket ville kræve omkring 7 GB GPU-hukommelse. Virksomheden bemærker også, at "hvis du ønsker at køre hundrede milliarder parameterversioner af modeller, vil den centraliserede sky være bedre egnet til din arbejdsbyrde."

Når den er op og køre, siger Cloudflare, at kunderne kan integrere tjenesten i deres applikationer ved hjælp af REST API'er eller ved at knytte den til deres Pages-webstedsfrontend.

Samler det hele

Fordi Workers AI kun understøtter inferencing på forudtrænede modeller, siger Cloudflare, at det har udviklet en vektordatabasetjeneste kaldet Vectorize for at gøre det nemmere for ML-modellerne at videregive kundedata til brugerne

For en chatbot kan en kunde f.eks. uploade deres produktkatalog til vektordatabasen, hvorfra modellen ville konvertere det til et indlejret aktiv.

Ideen ser ud til at være, at selvom Llama 2-modellen, der tilbydes af Cloudflare, måske ikke har specifik viden om en kundes data, kan chatbotten stadig vise relevant information ved at knytte sig til databasetjenesten. Ifølge Cloudflare er denne tilgang gør inferencing mere tilgængelig, hurtigere og mindre ressourcekrævende, fordi den afkobler kundedata fra selve modellen.

Udover Workers AI og Vectorize inkluderer Cloudflares AI-pakke også en platform til overvågning, optimering og styring af inferensarbejdsbelastninger i stor skala.

Tjenesten, der kaldes AI Gateway, anvender flere funktioner, der typisk er forbundet med indholdsleveringsnetværk og webproxyer, såsom caching og hastighedsbegrænsning, til AI-inferencing for at hjælpe kunderne med at kontrollere omkostningerne.

"Ved at cache ofte brugte AI-svar reducerer det latens og styrker systemets pålidelighed, mens hastighedsbegrænsning sikrer effektiv ressourceallokering, hvilket afbøder udfordringerne ved at øge AI-omkostningerne," forklarer virksomheden i blogindlægget.

Pris og tilgængelighed

Cloudflare bemærker, at tjenesten stadig er i de tidlige stadier af implementeringen, med syv websteder online i dag. Virksomheden implementerer dog GPU'er for at bringe tjenesten op på 100 tilstedeværelsespunkter ved årets udgang og "næsten overalt" ved udgangen af 2024.

Som et resultat af dette, anbefaler det ikke at implementere produktionsapps på Workers AI endnu, og beskriver det som en "tidlig beta".

"Det, vi udgav i dag, er blot en lille forsmag for at give dig en forsmag på, hvad der kommer," lyder blogindlægget.

Som sædvanlig siger Cloudflare, at det ikke vil fakturere for tjenesten på dag ét. Med det sagt, forventer den at opkræve omkring en cent for hver tusinde "almindelige trækningsneuroner" og $0.125 for hver tusinde "hurtige trækningsneuroner." Forskellen mellem de to er, at sidstnævnte prioriterer nærhed til slutbrugeren, mens den billigere af de to kører overalt, hvor Cloudflare har overskydende kapacitet.

Neuroner er en måde at måle AI-output på, forklarede virksomheden og tilføjede, at tusinde neuroner er gode til omkring 130 LLM-svar, 830 billedklassifikationer eller 1,250 indlejringer ®.