Cloudflare slipper AI fra nettverkskanten

Cloudflare slipper AI fra nettverkskanten

Kilde node: 2906199

Generative AI-modeller kan trenes i massive klynger av GPUer, men Cloudflare hevder at det åpenbare stedet å kjøre dem er ikke bare på kanten, men i selve nettverket.

På onsdag leveringsgiganten annonsert en pakke med AI-tjenester som tar sikte på å fjerne kompleksiteten ved å distribuere og kjøre store språkmodeller (LLM) og andre maskinlæringsalgoritmer (ML), samtidig som man oppnår lavest mulig ventetid.

Vel, faktisk ville lavest mulig ventetid oppnådd ved å kjøre slutningsarbeidsbelastningen på brukerens enhet. Intel gjorde en stor avtale med dette, touting fremveksten av AI PC-generasjonen, forrige uke hos Intel Innovation. Men selv om dette kan være fornuftig i noen tilfeller, argumenterer Cloudflare for at lokale enheter ikke er kraftige nok ennå.

"Dette gjør nettverket til slutningens gulllokker. Ikke for langt, med tilstrekkelig datakraft - akkurat,» skriver biz.

Serverløs for GPUer

AI-pakken består av tre kjernetjenester. Den første av disse er en utvidelse av den serverløse Workers-plattformen for å støtte GPU-akselererte arbeidsbelastninger. Tjenesten, kalt Workers AI, er designet for å strømlinjeforme prosessen med å distribuere ferdigtrente modeller.

«Ingen maskinlæringskompetanse, ingen leting etter GPUer. Bare velg en av de medfølgende modellene og gå," hevder Cloudflare.

Vi blir fortalt at plattformen kjører på toppen av Nvidia GPUer, selv om Cloudflare ikke ville fortelle oss hvilke. "Teknologien Cloudflare har bygget kan dele en slutningsoppgave på tvers av flere forskjellige GPUer, fordi vi tar oss av planleggingen og systemet, og vi vil bestemme hvilken brikke eller brikker som er mest fornuftig å levere det," sa den Registeret i en uttalelse.

For enkelhets skyld støtter plattformen ikke - i hvert fall ikke i utgangspunktet - kundeleverte modeller. Vi blir fortalt at den planlegger å rulle ut dette funksjonelt i fremtiden, men foreløpig er det begrenset til seks forhåndstrente modeller, som inkluderer:

  • Metas Llama 2 7B Int8 for tekstgenerering
  • Metas M2m100-1.2 for oversettelse
  • OpenAIs Whisper for talegjenkjenning
  • Hugging Faces Distilbert-sst-2-int8 for tekstklassifisering
  • Microsofts Resnet-50 for bildeklassifisering
  • Baai's bge-base-en-v1.5 for innebygging

Cloudflare sier imidlertid at de jobber med å utvide denne listen i nær fremtid. Som mange AI-håper har den det ønsket hjelp fra Hugging Face for å optimalisere flere modeller for tjenesten.

Det er ikke klart om det er en grense for størrelsen på modellene plattformen kan støtte, men den første listen gir noen ledetråder. Cloudflare gjør Metas syv milliarder parameter Llama 2 LLM tilgjengelig som kjører på Int8, som vil kreve omtrent 7 GB GPU-minne. Selskapet bemerker også at "hvis du ønsker å kjøre hundre milliarder parameterversjoner av modeller, vil den sentraliserte skyen være bedre egnet for arbeidsmengden din."

Når de er i gang, sier Cloudflare at kundene kan integrere tjenesten i applikasjonene sine ved å bruke REST API-er eller ved å knytte den til sidegrensesnittet deres.

Sette alt sammen

Fordi Workers AI kun støtter inferencing på forhåndstrente modeller, sier Cloudflare at det har utviklet en vektordatabasetjeneste kalt Vectorize for å gjøre det enklere for ML-modellene å overføre kundedata til brukere

For en chatbot kan en kunde for eksempel laste opp produktkatalogen sin til vektordatabasen, hvorfra modellen ville konvertere den til en innebygd ressurs.

Tanken ser ut til å være at selv om Llama 2-modellen som tilbys av Cloudflare kanskje ikke har spesifikk kunnskap om en kundes data, kan chatboten fortsatt vise relevant informasjon ved å knytte seg til databasetjenesten. Ifølge Cloudflare, denne tilnærmingen gjør slutninger mer tilgjengelig, raskere og mindre ressurskrevende fordi det kobler kundedata fra selve modellen.

Ved siden av Workers AI og Vectorize inkluderer Cloudflares AI-suite også en plattform for overvåking, optimalisering og administrasjon av inferensarbeidsbelastninger i stor skala.

Tjenesten, kalt AI Gateway, bruker flere funksjoner som vanligvis er knyttet til innholdsleveringsnettverk og nettproxyer, som bufring og hastighetsbegrensning, på AI-slutninger for å hjelpe kundene med å kontrollere kostnadene.

"Ved å bufre ofte brukte AI-svar, reduserer det ventetiden og styrker systemets pålitelighet, mens hastighetsbegrensning sikrer effektiv ressursallokering, og reduserer utfordringene med å øke AI-kostnadene," forklarer selskapet i blogginnlegget.

Pris og tilgjengelighet

Cloudflare bemerker at tjenesten fortsatt er i de tidlige stadiene av distribusjon, med syv nettsteder online i dag. Imidlertid distribuerer selskapet GPUer for å bringe tjenesten til 100 tilstedeværelsespunkter innen slutten av året og "nesten overalt" innen utgangen av 2024.

Som et resultat av dette anbefaler det ikke å distribuere produksjonsapper på Workers AI ennå, og beskriver det som en "tidlig beta."

"Det vi ga ut i dag er bare en liten forhåndsvisning for å gi deg en smak av hva som kommer," heter det i blogginnlegget.

Som vanlig sier Cloudflare at det ikke vil faktureres for tjenesten på dag én. Med det sagt, forventer den å belaste omtrent en cent for hver tusen "vanlige rykningsnevroner" og $0.125 for hver tusen "raske rykningsneuroner." Forskjellen mellom de to er at sistnevnte prioriterer nærhet til sluttbrukeren, mens den rimeligere av de to kjører hvor som helst Cloudflare har overkapasitet.

Nevroner er en måte å måle AI-utgang på, forklarte selskapet, og la til at tusen nevroner er bra for omtrent 130 LLM-svar, 830 bildeklassifiseringer eller 1,250 innebygginger ®.

Tidstempel:

Mer fra Registeret