Cloudflare Lets AI Loose Of The Network Edge

Taasavaldanud Platon

järgijaid: 0

Generatiivseid AI-mudeleid võidakse koolitada suurtes GPU-klastrites, kuid Cloudflare väidab, et nende käitamiseks on ilmne koht mitte ainult servas, vaid võrgus endas.

Kolmapäeval tarnehiiglane teatas AI teenuste komplekt, mille eesmärk on kõrvaldada suurte keelemudelite (LLM) ja muude masinõppe algoritmide juurutamise ja käitamise keerukus, saavutades samal ajal ka väikseima võimaliku latentsusaja.

Tegelikult saavutataks väikseima võimaliku latentsuse, kui käivitada kasutaja seadmes järelduste töökoormus. Intel tegi sellega suure tehingu, touting AI PC põlvkonna tõus eelmisel nädalal Intel Innovationis. Kuid kuigi see võib mõnel juhul olla mõttekas, väidab Cloudflare, et kohalikud seadmed pole veel piisavalt võimsad.

"See muudab võrgu järelduste kuldseks. Mitte liiga kaugel, piisava arvutusvõimsusega – täpselt õige,” kirjutab biz.

Serverita GPU-de jaoks

AI komplekt sisaldab kolme põhiteenust. Esimene neist on selle serverita Workersi platvormi laiendus, et toetada GPU kiirendatud töökoormust. Töötajate AI-ks nimetatud teenus on loodud eelkoolitatud mudelite juurutamise protsessi sujuvamaks muutmiseks.

„Ei mingit masinõppeoskust ega GPU-de otsimist. Valige lihtsalt üks pakutavatest mudelitest ja minge," väidab Cloudflare.

Meile öeldakse, et platvorm töötab Nvidia GPU-de peal, kuigi Cloudflare ei ütle meile, millised neist. "Cloudflare'i loodud tehnoloogia võib jagada järeldusülesande mitme erineva GPU vahel, sest me hoolitseme ajakava ja süsteemi eest ning otsustame, milline kiip või kiibid on selle edastamiseks kõige mõttekamad," ütles ta. Register avalduses.

Lihtsuse huvides ei toeta platvorm – vähemalt mitte esialgu – klientide pakutavaid mudeleid. Meile öeldi, et ta kavatseb selle tulevikus funktsionaalselt kasutusele võtta, kuid praegu on see piiratud kuue eelkoolitatud mudeliga, mis hõlmavad järgmist:

Meta Llama 2 7B Int8 teksti genereerimiseks
Meta M2m100-1.2 tõlkimiseks
OpenAI Whisper kõnetuvastuseks
Kallistava näo Distilbert-sst-2-int8 teksti klassifitseerimiseks
Microsofti Resnet-50 piltide klassifitseerimiseks
Baai bge-base-en-v1.5 manustamiseks

Kuid Cloudflare ütleb, et ta töötab selle loendi lähitulevikus laiendamise nimel. Nagu paljudel AI-lootustel, on ka see palutud Hugging Face abi, et optimeerida teenuse jaoks täiendavaid mudeleid.

Pole selge, kas platvormi toetatavate mudelite suurus on piiratud, kuid esialgne loend pakub mõningaid vihjeid. Cloudflare teeb Int2-s töötamiseks kättesaadavaks Meta seitsme miljardi suuruse parameetri Llama 8 LLM, mis nõuaks umbes 7 GB GPU-mälu. Ettevõte märgib ka, et "kui soovite käitada mudelite saja miljardi parameetriga versioone, sobib tsentraliseeritud pilv teie töökoormusega paremini."

Cloudflare'i sõnul saavad kliendid teenuse REST API-de abil oma rakendustesse integreerida või siduda selle oma lehtede veebisaidi esiservaga.

Haara see kõik koos

Kuna Workers AI toetab järeldamist ainult eelkoolitatud mudelite puhul, on Cloudflare sõnul välja töötanud vektorandmebaasi teenuse Vectorize, et hõlbustada ML-mudelitel klientide andmete edastamist kasutajatele.

Näiteks vestlusroboti puhul võib klient oma tootekataloogi üles laadida vektorandmebaasi, kust mudel teisendab selle manustatud varaks.

Idee näib olevat see, et kuigi Cloudflare'i pakutud Llama 2 mudelil ei pruugi olla konkreetseid teadmisi kliendi andmete kohta, saab vestlusbot siiski andmebaasiteenusega sidudes asjakohase teabe pinnale tuua. Cloudflare'i sõnul on see lähenemine teeb Järelduste tegemine juurdepääsetavamaks, kiiremaks ja vähem ressursimahukaks, kuna see lahutab kliendiandmed mudelist endast.

Lisaks Workers AI-le ja Vectorize'ile sisaldab Cloudflare'i AI komplekt ka platvormi järelduste töökoormuse jälgimiseks, optimeerimiseks ja haldamiseks.

Teenus, mille nimi on AI Gateway, rakendab tehisintellekti järelduste tegemisel mitmeid tavaliselt sisu edastamise võrkude ja veebipuhverserveritega seotud funktsioone, nagu vahemälu ja kiiruse piiramine, et aidata klientidel kulusid kontrollida.

"Sagedasti kasutatavate tehisintellekti vastuste vahemällu salvestamine vähendab latentsust ja suurendab süsteemi töökindlust, samal ajal kui kiiruse piiramine tagab ressursside tõhusa jaotamise, leevendades tehisintellekti kulude spiraalselt kasvavaid väljakutseid," selgitab ettevõte ajaveebi postituses.

Hinnakujundus ja kättesaadavus

Cloudflare märgib, et teenus on alles juurutamise algfaasis ja täna on võrgus seitse saiti. Siiski juurutab ettevõte GPU-sid, et viia teenus aasta lõpuks 100 kohalolekupunktini ja 2024. aasta lõpuks "peaaegu kõikjal".

Selle tulemusena ei soovita see veel Workers AI-s tootmisrakendusi juurutada, kirjeldades seda kui "varajast beetaversiooni".

"See, mida me täna avaldasime, on vaid väike eelvaade, et anda teile aimu sellest, mis tulemas on," seisab ajaveebi postituses.

Nagu tavaliselt, ütleb Cloudflare, et ta ei arvelda teenuse eest esimesel päeval. Seda arvestades eeldab ta umbes sendi iga tuhande "tavalise tõmblusneuroni" eest ja 0.125 dollarit iga tuhande "kiire tõmblemise neuroni" eest. Nende kahe erinevus seisneb selles, et viimane seab esikohale lõppkasutaja läheduse, samas kui odavam neist töötab kõikjal, kus Cloudflare'il on ülevõimsust.

Neuronid on viis AI väljundi mõõtmiseks, selgitas ettevõte, lisades, et tuhat neuronit sobib umbes 130 LLM-reaktsiooni, 830 kujutise klassifikatsiooni või 1,250 manustamise jaoks.