Cloudflare lar AI løsne fra nettverkskanten

Publisert av Platon

Følgere: 0

Generative AI-modeller kan trenes i massive klynger av GPUer, men Cloudflare hevder at det åpenbare stedet å kjøre dem er ikke bare på kanten, men i selve nettverket.

På onsdag leveringsgiganten annonsert en pakke med AI-tjenester som tar sikte på å fjerne kompleksiteten ved å distribuere og kjøre store språkmodeller (LLM) og andre maskinlæringsalgoritmer (ML), samtidig som man oppnår lavest mulig ventetid.

Vel, faktisk ville lavest mulig ventetid oppnådd ved å kjøre slutningsarbeidsbelastningen på brukerens enhet. Intel gjorde en stor avtale med dette, touting fremveksten av AI PC-generasjonen, forrige uke hos Intel Innovation. Men selv om dette kan være fornuftig i noen tilfeller, argumenterer Cloudflare for at lokale enheter ikke er kraftige nok ennå.

"Dette gjør nettverket til slutningens gulllokker. Ikke for langt, med tilstrekkelig datakraft - akkurat,» skriver biz.

Serverløs for GPUer

AI-pakken består av tre kjernetjenester. Den første av disse er en utvidelse av den serverløse Workers-plattformen for å støtte GPU-akselererte arbeidsbelastninger. Tjenesten, kalt Workers AI, er designet for å strømlinjeforme prosessen med å distribuere ferdigtrente modeller.

«Ingen maskinlæringskompetanse, ingen leting etter GPUer. Bare velg en av de medfølgende modellene og gå," hevder Cloudflare.

Vi blir fortalt at plattformen kjører på toppen av Nvidia GPUer, selv om Cloudflare ikke ville fortelle oss hvilke. "Teknologien Cloudflare har bygget kan dele en slutningsoppgave på tvers av flere forskjellige GPUer, fordi vi tar oss av planleggingen og systemet, og vi vil bestemme hvilken brikke eller brikker som er mest fornuftig å levere det," sa den Registeret i en uttalelse.

For enkelhets skyld støtter plattformen ikke - i hvert fall ikke i utgangspunktet - kundeleverte modeller. Vi blir fortalt at den planlegger å rulle ut dette funksjonelt i fremtiden, men foreløpig er det begrenset til seks forhåndstrente modeller, som inkluderer:

Metas Llama 2 7B Int8 for tekstgenerering
Metas M2m100-1.2 for oversettelse
OpenAIs Whisper for talegjenkjenning
Hugging Faces Distilbert-sst-2-int8 for tekstklassifisering
Microsofts Resnet-50 for bildeklassifisering
Baai's bge-base-en-v1.5 for innebygging

Cloudflare sier imidlertid at de jobber med å utvide denne listen i nær fremtid. Som mange AI-håper har den det ønsket hjelp fra Hugging Face for å optimalisere flere modeller for tjenesten.

Det er ikke klart om det er en grense for størrelsen på modellene plattformen kan støtte, men den første listen gir noen ledetråder. Cloudflare gjør Metas syv milliarder parameter Llama 2 LLM tilgjengelig som kjører på Int8, som vil kreve omtrent 7 GB GPU-minne. Selskapet bemerker også at "hvis du ønsker å kjøre hundre milliarder parameterversjoner av modeller, vil den sentraliserte skyen være bedre egnet for arbeidsmengden din."

Når de er i gang, sier Cloudflare at kundene kan integrere tjenesten i applikasjonene sine ved å bruke REST API-er eller ved å knytte den til sidegrensesnittet deres.

Sette alt sammen

Fordi Workers AI kun støtter inferencing på forhåndstrente modeller, sier Cloudflare at det har utviklet en vektordatabasetjeneste kalt Vectorize for å gjøre det enklere for ML-modellene å overføre kundedata til brukere

For en chatbot kan en kunde for eksempel laste opp produktkatalogen sin til vektordatabasen, hvorfra modellen ville konvertere den til en innebygd ressurs.

Tanken ser ut til å være at selv om Llama 2-modellen som tilbys av Cloudflare kanskje ikke har spesifikk kunnskap om en kundes data, kan chatboten fortsatt vise relevant informasjon ved å knytte seg til databasetjenesten. Ifølge Cloudflare, denne tilnærmingen gjør slutninger mer tilgjengelig, raskere og mindre ressurskrevende fordi det kobler kundedata fra selve modellen.

Ved siden av Workers AI og Vectorize inkluderer Cloudflares AI-suite også en plattform for overvåking, optimalisering og administrasjon av inferensarbeidsbelastninger i stor skala.

Tjenesten, kalt AI Gateway, bruker flere funksjoner som vanligvis er knyttet til innholdsleveringsnettverk og nettproxyer, som bufring og hastighetsbegrensning, på AI-slutninger for å hjelpe kundene med å kontrollere kostnadene.

"Ved å bufre ofte brukte AI-svar, reduserer det ventetiden og styrker systemets pålitelighet, mens hastighetsbegrensning sikrer effektiv ressursallokering, og reduserer utfordringene med å øke AI-kostnadene," forklarer selskapet i blogginnlegget.

Pris og tilgjengelighet

Cloudflare bemerker at tjenesten fortsatt er i de tidlige stadiene av distribusjon, med syv nettsteder online i dag. Imidlertid distribuerer selskapet GPUer for å bringe tjenesten til 100 tilstedeværelsespunkter innen slutten av året og "nesten overalt" innen utgangen av 2024.

Som et resultat av dette anbefaler det ikke å distribuere produksjonsapper på Workers AI ennå, og beskriver det som en "tidlig beta."

"Det vi ga ut i dag er bare en liten forhåndsvisning for å gi deg en smak av hva som kommer," heter det i blogginnlegget.

Som vanlig sier Cloudflare at det ikke vil faktureres for tjenesten på dag én. Med det sagt, forventer den å belaste omtrent en cent for hver tusen "vanlige rykningsnevroner" og $0.125 for hver tusen "raske rykningsneuroner." Forskjellen mellom de to er at sistnevnte prioriterer nærhet til sluttbrukeren, mens den rimeligere av de to kjører hvor som helst Cloudflare har overkapasitet.

Nevroner er en måte å måle AI-utgang på, forklarte selskapet, og la til at tusen nevroner er bra for omtrent 130 LLM-svar, 830 bildeklassifiseringer eller 1,250 innebygginger ®.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/

Tidstempel: September 28, 2023

Mer fra Registeret

Er datasyn kuren mot skoleskyting? Sannsynligvis ikke

Kildeklynge:

Kildeklynge:

Registeret

Kilde node: 2631792

Tidstempel: Kan 4, 2023

Toyota gjenopptar autonome Paralympics-busser etter at kjøretøyet traff en judokonkurrent, tvang ham ut av kamp

Kildeklynge:

Registeret

Kilde node: 1170849

Tidstempel: August 30, 2021

Publisert av Platon

Er datasyn kuren mot skoleskyting? Sannsynligvis ikke

Boffins konverterer skrivelyder til tekst med 95 % nøyaktighet

Det er din menneskelige hybris som holder tilbake AI-aksept

Å legge til AI til alt vil ikke gi mening før vi kan bruke det til noe

OpenAI saksøkte etter at ChatGPT feilaktig hevdet at mannen underslagte penger

Googles AI call center-agenter tar alle morgenfri

Jeg kan ikke gjøre det, Dave: AI drukner topp sci-fi-magasin med historieinnleveringer

Det er rett og slett ikke nok leger. Så kan vi stole på smartere helseteknologi?

IBM-sjef forklarer hvorfor han avlastet Watson Health: Ikke nok domeneekspertise

Dagens våpenkappløp handler om AI og det er Kina vs Amerika, sier USAs forsvarsminister

Amerikanske, britiske monopolvaktbikkjer undersøker AI for å sikre at vi ikke blir skrudd

Toyota gjenopptar autonome Paralympics-busser etter at kjøretøyet traff en judokonkurrent, tvang ham ut av kamp

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn