Cloudflare Lets AI Loose Of The Network Edge

Ponovno objavil Platon

Spremljevalci: 0

Generativni modeli umetne inteligence se lahko učijo v ogromnih grozdih grafičnih procesorjev, vendar Cloudflare trdi, da očitno mesto za njihovo izvajanje ni samo na robu, ampak v samem omrežju.

V sredo dostavni velikan razglasitve nabor storitev umetne inteligence, katerih cilj je odpraviti kompleksnost uvajanja in izvajanja modelov velikega jezika (LLM) in drugih algoritmov strojnega učenja (ML), hkrati pa doseči najnižjo možno zakasnitev.

No, pravzaprav bi najnižjo možno zakasnitev dosegli z izvajanjem delovne obremenitve sklepanja na uporabnikovi napravi. Intel se je glede tega zelo potrudil, touting vzpon generacije računalnikov z umetno inteligenco, prejšnji teden na Intel Innovation. Čeprav je to v nekaterih primerih morda smiselno, Cloudflare trdi, da lokalne naprave še niso dovolj zmogljive.

»Zaradi tega je omrežje zlatolaska sklepanja. Ne predaleč, z zadostno računalniško močjo — ravno prav,« piše biz.

Brez strežnika za GPU

Paket umetne inteligence obsega tri osnovne storitve. Prvi od teh je razširitev brezstrežniške platforme Workers za podporo GPU pospešenih delovnih obremenitev. Storitev, imenovana Workers AI, je zasnovana tako, da poenostavi postopek uvajanja vnaprej usposobljenih modelov.

»Brez strokovnega znanja o strojnem učenju, brez iskanja grafičnih procesorjev. Samo izberite enega od ponujenih modelov in pojdite,« trdi Cloudflare.

Povedali so nam, da platforma deluje na grafičnih procesorjih Nvidia, čeprav nam Cloudflare ne želi povedati, katere. "Tehnologija, ki jo je zgradil Cloudflare, lahko nalogo sklepanja razdeli na več različnih grafičnih procesorjev, ker skrbimo za razporejanje in sistem ter se bomo odločili, kateri čip ali čipi so najbolj smiselni za to," je povedal Register v izjavi.

Zaradi poenostavitve platforma ne podpira – vsaj na začetku – modelov, ki jih dobavljajo stranke. Povedali so nam, da namerava to funkcionalno uvesti v prihodnosti, vendar je za zdaj omejeno na šest vnaprej pripravljenih modelov, ki vključujejo:

Meta's Llama 2 7B Int8 za generiranje besedila
Metin M2m100-1.2 za prevod
OpenAI's Whisper za prepoznavanje govora
Distilbert-sst-2-int8 Hugging Face za razvrščanje besedila
Microsoftov Resnet-50 za klasifikacijo slik
Baai bge-base-en-v1.5 za vdelave

Vendar Cloudflare pravi, da si prizadeva razširiti ta seznam v bližnji prihodnosti. Tako kot mnogi tisti, ki upajo na AI, se je naprošen pomoč Hugging Face za optimizacijo dodatnih modelov za storitev.

Ni jasno, ali obstaja omejitev glede velikosti modelov, ki jih platforma lahko podpira, vendar začetni seznam ponuja nekaj namigov. Cloudflare omogoča Metin sedemmilijardni parameter Llama 2 LLM, ki deluje pri Int8, kar bi zahtevalo približno 7 GB pomnilnika GPU. Podjetje tudi ugotavlja, da "če želite zagnati različice modelov s sto milijardami parametrov, bo centraliziran oblak bolj primeren za vašo delovno obremenitev."

Cloudflare pravi, da lahko po tem, ko se storitev začne izvajati, stranke integrirajo storitev v svoje aplikacije z uporabo REST API-jev ali tako, da jo povežejo s svojim spletnim mestom Pages.

Vse skupaj

Ker Workers AI podpira samo sklepanje na predhodno usposobljenih modelih, Cloudflare pravi, da je razvil storitev vektorske baze podatkov, imenovano Vectorize, da bi modelom ML olajšal posredovanje podatkov o strankah uporabnikom.

Na primer, za chatbota lahko stranka naloži svoj katalog izdelkov v vektorsko zbirko podatkov, iz katere bi ga model pretvoril v vdelano sredstvo.

Zdi se, da je zamisel v tem, da čeprav model Llama 2, ki ga ponuja Cloudflare, morda nima posebnega znanja o podatkih stranke, lahko klepetalni robot še vedno prikaže ustrezne informacije, tako da se poveže s storitvijo zbirke podatkov. Po mnenju Cloudflare ta pristop znamke sklepanje je dostopnejše, hitrejše in zahteva manj virov, ker ločuje podatke o strankah od samega modela.

Poleg Workers AI in Vectorize paket AI Cloudflare vključuje tudi platformo za spremljanje, optimizacijo in upravljanje sklepanja delovnih obremenitev v velikem obsegu.

Storitev, imenovana AI Gateway, uporablja več funkcij, ki so običajno povezane z omrežji za dostavo vsebine in spletnimi posredniki, kot sta predpomnjenje in omejevanje hitrosti, za sklepanje AI, da strankam pomaga pri nadzoru stroškov.

»S predpomnjenjem pogosto uporabljenih odzivov umetne inteligence zmanjša zakasnitev in poveča zanesljivost sistema, medtem ko omejevanje hitrosti zagotavlja učinkovito dodeljevanje virov, kar ublaži izzive spiralnih stroškov umetne inteligence,« pojasnjuje podjetje v objavi na blogu.

Cene in dobavljivost

Cloudflare ugotavlja, da je storitev še vedno v zgodnjih fazah uvajanja, saj je danes na spletu sedem spletnih mest. Vendar pa podjetje uvaja grafične procesorje, da bi storitev dosegla 100 točk prisotnosti do konca leta in "skoraj povsod" do konca leta 2024.

Zaradi tega še ne priporoča uvajanja produkcijskih aplikacij na Workers AI in jo opisuje kot »zgodnjo različico beta«.

»To, kar smo izdali danes, je le majhen predogled, da boste lahko okusili, kaj prihaja,« piše v objavi v blogu.

Kot običajno Cloudflare pravi, da prvi dan storitve ne bo zaračunal. Glede na to pričakuje, da bo zaračunal približno cent za vsakih tisoč "navadnih trzajočih se nevronov" in 0.125 USD za vsakih tisoč "hitro trzajočih se nevronov". Razlika med obema je v tem, da slednji daje prednost bližini končnega uporabnika, medtem ko cenejši od obeh deluje kjer koli, kjer ima Cloudflare presežne zmogljivosti.

Nevroni so način za merjenje rezultatov umetne inteligence, je pojasnilo podjetje in dodalo, da je tisoč nevronov dobrih za približno 130 odzivov LLM, 830 klasifikacij slik ali 1,250 vdelav ®.