Cloudflare laat AI los van de netwerkrand

Heruitgegeven door Plato

volgers: 0

Generatieve AI-modellen kunnen worden getraind in enorme clusters van GPU's, maar Cloudflare beweert dat de voor de hand liggende plaats om ze te laten draaien niet alleen aan de rand ligt, maar in het netwerk zelf.

Op woensdag de bezorggigant aangekondigd een reeks AI-diensten gericht op het wegnemen van de complexiteit van het inzetten en uitvoeren van grote taalmodellen (LLM's) en andere machine learning (ML)-algoritmen, terwijl ook de laagst mogelijke latentie wordt bereikt.

In feite zou de laagst mogelijke latentie worden bereikt door de inferentiewerklast op het apparaat van de gebruiker uit te voeren. Intel heeft hier veel over gezegd, touting de opkomst van de AI PC-generatie, vorige week bij Intel Innovation. Maar hoewel dit in sommige gevallen zinvol kan zijn, beweert Cloudflare dat lokale apparaten nog niet krachtig genoeg zijn.

“Dit maakt het netwerk tot het goudlokje van gevolgtrekkingen. Niet te ver, met voldoende rekenkracht – precies goed”, schrijft de business.

Serverloos voor GPU's

De AI-suite omvat drie kerndiensten. De eerste hiervan is een uitbreiding van het serverloze Workers-platform ter ondersteuning van GPU-versnelde workloads. De service, genaamd Workers AI, is ontworpen om het proces van het inzetten van vooraf getrainde modellen te stroomlijnen.

“Geen expertise op het gebied van machine learning, geen zoeken naar GPU’s. Kies gewoon een van de aangeboden modellen en ga aan de slag”, beweert Cloudflare.

Er is ons verteld dat het platform op Nvidia GPU's draait, hoewel Cloudflare ons niet wil vertellen welke. “De technologie die Cloudflare heeft gebouwd kan een gevolgtrekkingstaak over meerdere verschillende GPU’s verdelen, omdat wij voor de planning en het systeem zorgen, en we zullen beslissen welke chip of chips het meest logisch zijn om dat te leveren”, aldus het rapport. Het register in een verklaring.

Omwille van de eenvoud ondersteunt het platform – althans niet in eerste instantie – geen door klanten aangeleverde modellen. Er is ons verteld dat het van plan is dit in de toekomst functioneel uit te rollen, maar voorlopig is het beperkt tot zes vooraf getrainde modellen, waaronder:

Meta's Llama 2 7B Int8 voor het genereren van tekst
Meta's M2m100-1.2 voor vertaling
OpenAI's Whisper voor spraakherkenning
Hugging Face's Distilbert-sst-2-int8 voor tekstclassificatie
Microsoft's Resnet-50 voor beeldclassificatie
Baai's bge-base-en-v1.5 voor inbedding

Cloudflare zegt echter dat het eraan werkt om deze lijst in de nabije toekomst uit te breiden. Zoals veel AI-hoopvolle mensen is dat ook het geval gevraagd de hulp van Hugging Face om aanvullende modellen voor de service te optimaliseren.

Het is niet duidelijk of er een limiet is aan de grootte van de modellen die het platform kan ondersteunen, maar de eerste lijst biedt wel enkele aanwijzingen. Cloudflare stelt Meta's Llama 2 LLM met zeven miljard parameters beschikbaar op Int8, waarvoor ongeveer 7 GB GPU-geheugen nodig is. Het bedrijf merkt ook op dat “als u honderd miljard parameterversies van modellen wilt uitvoeren, de gecentraliseerde cloud beter geschikt zal zijn voor uw werklast.”

Zodra Cloudflare eenmaal operationeel is, kunnen klanten de service in hun applicaties integreren met behulp van REST API's of door deze aan de frontend van hun Pages-website te koppelen.

Putting het allemaal samen

Omdat Workers AI alleen gevolgtrekkingen op vooraf getrainde modellen ondersteunt, zegt Cloudflare dat het een vectordatabaseservice heeft ontwikkeld met de naam Vectorize om het voor de ML-modellen gemakkelijker te maken om klantgegevens aan gebruikers door te geven.

Voor een chatbot kan een klant bijvoorbeeld zijn productcatalogus uploaden naar de vectordatabase, van waaruit het model deze omzet in een ingebed item.

Het idee lijkt te zijn dat, hoewel het Llama 2-model van Cloudflare misschien geen specifieke kennis heeft van de gegevens van een klant, de chatbot nog steeds relevante informatie naar boven kan halen door verbinding te maken met de databaseservice. Volgens Cloudflare is deze aanpak merken het concluderen is toegankelijker, sneller en minder arbeidsintensief omdat klantgegevens worden losgekoppeld van het model zelf.

Naast Workers AI en Vectorize bevat de AI-suite van Cloudflare ook een platform voor het monitoren, optimaliseren en beheren van inferentieworkloads op schaal.

De dienst, genaamd AI Gateway, past verschillende functies toe die doorgaans worden geassocieerd met netwerken voor inhoudslevering en webproxy's, zoals caching en snelheidsbeperking, op AI-inferentie om klanten te helpen de kosten onder controle te houden.

“Door veelgebruikte AI-reacties in het cachegeheugen op te slaan, wordt de latentie verminderd en de systeembetrouwbaarheid vergroot, terwijl snelheidsbeperking zorgt voor een efficiënte toewijzing van middelen, waardoor de uitdagingen van stijgende AI-kosten worden beperkt”, legt het bedrijf uit in de blogpost.

Prijs en beschikbaarheid

Cloudflare merkt op dat de dienst zich nog in de beginfase van de implementatie bevindt, met vandaag zeven sites online. Het bedrijf zet echter GPU’s in om de service tegen het einde van het jaar op 100 aanwezigheidspunten te brengen en tegen eind 2024 “bijna overal”.

Als gevolg hiervan wordt het nog niet aanbevolen om productie-apps op Workers AI te implementeren, en wordt het beschreven als een “vroege bèta.”

“Wat we vandaag hebben vrijgegeven is slechts een klein voorproefje om je een voorproefje te geven van wat gaat komen”, luidt de blogpost.

Zoals gewoonlijk zegt Cloudflare dat het de service niet op de eerste dag zal factureren. Dat gezegd hebbende, verwacht het bedrijf ongeveer een cent in rekening te brengen voor elke duizend ‘reguliere twitch-neuronen’ en $ 0.125 voor elke duizend ‘fast twitch-neuronen’. Het verschil tussen de twee is dat de laatste prioriteit geeft aan de nabijheid van de eindgebruiker, terwijl de goedkopere van de twee overal draait waar Cloudflare overcapaciteit heeft.

Neuronen zijn een manier om de AI-output te meten, legde het bedrijf uit, eraan toevoegend dat duizend neuronen goed zijn voor ongeveer 130 LLM-reacties, 830 beeldclassificaties of 1,250 inbeddings®.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/

Tijdstempel: 28 september 2023

Meer van Het register

Is computervisie de remedie voor schietpartijen op scholen? waarschijnlijk niet

Broncluster:

Broncluster:

Het register

Bronknooppunt: 2631792

Tijdstempel: 4 mei 2023

Toyota hervat autonome Paralympische bussen nadat voertuig judo-concurrent aanreed en hem uit de wedstrijd dwong

Broncluster:

Het register

Bronknooppunt: 1170849

Tijdstempel: Augustus 30, 2021

Heruitgegeven door Plato

Is computervisie de remedie voor schietpartijen op scholen? waarschijnlijk niet

Boffins zetten typgeluiden om in tekst met een nauwkeurigheid van 95%

Het is je menselijke overmoed die de acceptatie van AI tegenhoudt

AI aan alles toevoegen heeft pas zin als we het ergens voor kunnen gebruiken

OpenAI aangeklaagd nadat ChatGPT ten onrechte beweert dat een man geld heeft verduisterd

De AI-callcentermedewerkers van Google nemen allemaal de ochtend vrij

Dat kan ik niet doen, Dave: AI verdrinkt top sci-fi tijdschrift met ingezonden verhalen

Er zijn gewoon niet genoeg dokters. Kunnen we vertrouwen op slimmere zorgtechnologie?

IBM CEO legt uit waarom hij Watson Health ontlast: niet genoeg domeinexpertise

De huidige wapenwedloop draait helemaal om AI en het is China versus Amerika, zegt de Amerikaanse minister van Defensie

Amerikaanse, Britse monopoliewaakhonden onderzoeken AI om er zeker van te zijn dat we niet genaaid worden

Toyota hervat autonome Paralympische bussen nadat voertuig judo-concurrent aanreed en hem uit de wedstrijd dwong

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account