Cloudflare laat AI los van de netwerkrand

Cloudflare laat AI los van de netwerkrand

Bronknooppunt: 2906199

Generatieve AI-modellen kunnen worden getraind in enorme clusters van GPU's, maar Cloudflare beweert dat de voor de hand liggende plaats om ze te laten draaien niet alleen aan de rand ligt, maar in het netwerk zelf.

Op woensdag de bezorggigant aangekondigd een reeks AI-diensten gericht op het wegnemen van de complexiteit van het inzetten en uitvoeren van grote taalmodellen (LLM's) en andere machine learning (ML)-algoritmen, terwijl ook de laagst mogelijke latentie wordt bereikt.

In feite zou de laagst mogelijke latentie worden bereikt door de inferentiewerklast op het apparaat van de gebruiker uit te voeren. Intel heeft hier veel over gezegd, touting de opkomst van de AI PC-generatie, vorige week bij Intel Innovation. Maar hoewel dit in sommige gevallen zinvol kan zijn, beweert Cloudflare dat lokale apparaten nog niet krachtig genoeg zijn.

“Dit maakt het netwerk tot het goudlokje van gevolgtrekkingen. Niet te ver, met voldoende rekenkracht – precies goed”, schrijft de business.

Serverloos voor GPU's

De AI-suite omvat drie kerndiensten. De eerste hiervan is een uitbreiding van het serverloze Workers-platform ter ondersteuning van GPU-versnelde workloads. De service, genaamd Workers AI, is ontworpen om het proces van het inzetten van vooraf getrainde modellen te stroomlijnen.

“Geen expertise op het gebied van machine learning, geen zoeken naar GPU’s. Kies gewoon een van de aangeboden modellen en ga aan de slag”, beweert Cloudflare.

Er is ons verteld dat het platform op Nvidia GPU's draait, hoewel Cloudflare ons niet wil vertellen welke. “De technologie die Cloudflare heeft gebouwd kan een gevolgtrekkingstaak over meerdere verschillende GPU’s verdelen, omdat wij voor de planning en het systeem zorgen, en we zullen beslissen welke chip of chips het meest logisch zijn om dat te leveren”, aldus het rapport. Het register in een verklaring.

Omwille van de eenvoud ondersteunt het platform – althans niet in eerste instantie – geen door klanten aangeleverde modellen. Er is ons verteld dat het van plan is dit in de toekomst functioneel uit te rollen, maar voorlopig is het beperkt tot zes vooraf getrainde modellen, waaronder:

  • Meta's Llama 2 7B Int8 voor het genereren van tekst
  • Meta's M2m100-1.2 voor vertaling
  • OpenAI's Whisper voor spraakherkenning
  • Hugging Face's Distilbert-sst-2-int8 voor tekstclassificatie
  • Microsoft's Resnet-50 voor beeldclassificatie
  • Baai's bge-base-en-v1.5 voor inbedding

Cloudflare zegt echter dat het eraan werkt om deze lijst in de nabije toekomst uit te breiden. Zoals veel AI-hoopvolle mensen is dat ook het geval gevraagd de hulp van Hugging Face om aanvullende modellen voor de service te optimaliseren.

Het is niet duidelijk of er een limiet is aan de grootte van de modellen die het platform kan ondersteunen, maar de eerste lijst biedt wel enkele aanwijzingen. Cloudflare stelt Meta's Llama 2 LLM met zeven miljard parameters beschikbaar op Int8, waarvoor ongeveer 7 GB GPU-geheugen nodig is. Het bedrijf merkt ook op dat “als u honderd miljard parameterversies van modellen wilt uitvoeren, de gecentraliseerde cloud beter geschikt zal zijn voor uw werklast.”

Zodra Cloudflare eenmaal operationeel is, kunnen klanten de service in hun applicaties integreren met behulp van REST API's of door deze aan de frontend van hun Pages-website te koppelen.

Putting het allemaal samen

Omdat Workers AI alleen gevolgtrekkingen op vooraf getrainde modellen ondersteunt, zegt Cloudflare dat het een vectordatabaseservice heeft ontwikkeld met de naam Vectorize om het voor de ML-modellen gemakkelijker te maken om klantgegevens aan gebruikers door te geven.

Voor een chatbot kan een klant bijvoorbeeld zijn productcatalogus uploaden naar de vectordatabase, van waaruit het model deze omzet in een ingebed item.

Het idee lijkt te zijn dat, hoewel het Llama 2-model van Cloudflare misschien geen specifieke kennis heeft van de gegevens van een klant, de chatbot nog steeds relevante informatie naar boven kan halen door verbinding te maken met de databaseservice. Volgens Cloudflare is deze aanpak merken het concluderen is toegankelijker, sneller en minder arbeidsintensief omdat klantgegevens worden losgekoppeld van het model zelf.

Naast Workers AI en Vectorize bevat de AI-suite van Cloudflare ook een platform voor het monitoren, optimaliseren en beheren van inferentieworkloads op schaal.

De dienst, genaamd AI Gateway, past verschillende functies toe die doorgaans worden geassocieerd met netwerken voor inhoudslevering en webproxy's, zoals caching en snelheidsbeperking, op AI-inferentie om klanten te helpen de kosten onder controle te houden.

“Door veelgebruikte AI-reacties in het cachegeheugen op te slaan, wordt de latentie verminderd en de systeembetrouwbaarheid vergroot, terwijl snelheidsbeperking zorgt voor een efficiënte toewijzing van middelen, waardoor de uitdagingen van stijgende AI-kosten worden beperkt”, legt het bedrijf uit in de blogpost.

Prijs en beschikbaarheid

Cloudflare merkt op dat de dienst zich nog in de beginfase van de implementatie bevindt, met vandaag zeven sites online. Het bedrijf zet echter GPU’s in om de service tegen het einde van het jaar op 100 aanwezigheidspunten te brengen en tegen eind 2024 “bijna overal”.

Als gevolg hiervan wordt het nog niet aanbevolen om productie-apps op Workers AI te implementeren, en wordt het beschreven als een “vroege bèta.”

“Wat we vandaag hebben vrijgegeven is slechts een klein voorproefje om je een voorproefje te geven van wat gaat komen”, luidt de blogpost.

Zoals gewoonlijk zegt Cloudflare dat het de service niet op de eerste dag zal factureren. Dat gezegd hebbende, verwacht het bedrijf ongeveer een cent in rekening te brengen voor elke duizend ‘reguliere twitch-neuronen’ en $ 0.125 voor elke duizend ‘fast twitch-neuronen’. Het verschil tussen de twee is dat de laatste prioriteit geeft aan de nabijheid van de eindgebruiker, terwijl de goedkopere van de twee overal draait waar Cloudflare overcapaciteit heeft.

Neuronen zijn een manier om de AI-output te meten, legde het bedrijf uit, eraan toevoegend dat duizend neuronen goed zijn voor ongeveer 130 LLM-reacties, 830 beeldclassificaties of 1,250 inbeddings®.

Tijdstempel:

Meer van Het register