Cloudflare päästää tekoälyn irti verkon reunasta

Cloudflare päästää tekoälyn irti verkon reunasta

Lähdesolmu: 2906199

Generatiivisia tekoälymalleja voidaan kouluttaa valtaviin grafiikkasuorittimien ryhmiin, mutta Cloudflare väittää, että ilmeinen paikka niiden käyttämiselle ei ole vain reunalla, vaan itse verkossa.

Keskiviikkona toimitusjättiläinen ilmoitti AI-palvelupaketti, jonka tarkoituksena on poistaa suurikielisten mallien (LLM) ja muiden koneoppimisalgoritmien (ML) käyttöönoton ja käytön monimutkaisuus ja saavuttaa samalla pienin mahdollinen latenssi.

Itse asiassa pienin mahdollinen latenssi saavutettaisiin suorittamalla päättelytyökuorma käyttäjän laitteessa. Intel teki tästä ison jutun, edelleenmyymisen AI PC -sukupolven nousu viime viikolla Intel Innovationissa. Mutta vaikka tämä saattaa joissain tapauksissa olla järkevää, Cloudflare väittää, että paikalliset laitteet eivät ole vielä tarpeeksi tehokkaita.

”Tämä tekee verkosta päätelmien kultakukon. Ei liian kaukana, riittävällä laskentateholla – juuri sopivasti”, biz kirjoittaa.

Palvelimeton GPU:ille

Tekoälypaketti sisältää kolme ydinpalvelua. Ensimmäinen näistä on sen palvelimettoman Workers-alustan laajennus, joka tukee GPU-kiihdytettyä työkuormaa. Workers AI -palvelu on suunniteltu virtaviivaistamaan esikoulutettujen mallien käyttöönottoa.

"Ei koneoppimisen asiantuntemusta, ei grafiikkasuorittimien etsimistä. Valitse vain yksi tarjotuista malleista ja mene”, Cloudflare väittää.

Meille kerrotaan, että alusta toimii Nvidian näytönohjainten päällä, vaikka Cloudflare ei kertoisi meille, mitkä niistä. "Cloudflaren rakentama teknologia voi jakaa päättelytehtävän useiden eri GPU:iden kesken, koska me huolehdimme ajoituksesta ja järjestelmästä ja päätämme, mikä siru tai sirut ovat järkevintä toimittaa se", hän kertoi. Rekisteri lausunnossaan.

Yksinkertaisuuden vuoksi alusta ei – ainakaan aluksi – tue asiakkaiden toimittamia malleja. Meille kerrottiin, että se aikoo ottaa tämän käyttöön toiminnallisesti tulevaisuudessa, mutta toistaiseksi se on rajoitettu kuuteen esikoulutettuun malliin, jotka sisältävät:

  • Meta's Llama 2 7B Int8 tekstin luomiseen
  • Metan M2m100-1.2 käännöstä varten
  • OpenAI:n Whisper puheentunnistusta varten
  • Hugging Facen Distilbert-sst-2-int8 tekstin luokittelua varten
  • Microsoftin Resnet-50 kuvien luokitteluun
  • Baain bge-base-en-v1.5 upotuksia varten

Cloudflare sanoo kuitenkin pyrkivänsä laajentamaan tätä luetteloa lähitulevaisuudessa. Kuten monet tekoälytoiveet, se on tehnyt pyydetty Hugging Facen avulla voit optimoida lisämalleja palvelua varten.

Ei ole selvää, onko alustan tukemien mallien kokoa rajoitettu, mutta alkuperäinen luettelo tarjoaa joitain vihjeitä. Cloudflare tarjoaa Metan seitsemän miljardin parametrin Llama 2 LLM:n käytettäväksi Int8:ssa, mikä vaatisi noin 7 Gt GPU-muistia. Yhtiö huomauttaa myös, että "jos haluat käyttää satojen miljardien parametrien versioita malleista, keskitetty pilvi sopii paremmin työkuormitukseesi."

Kun palvelu on otettu käyttöön, Cloudflare sanoo, että asiakkaat voivat integroida palvelun sovelluksiinsa käyttämällä REST-sovellusliittymiä tai sitomalla sen Pages-verkkosivustonsa käyttöliittymään.

Kokoaminen

Koska Workers AI tukee päättelyä vain esikoulutetuissa malleissa, Cloudflare sanoo kehittäneensä Vectorize-nimisen vektoritietokantapalvelun, joka helpottaa ML-mallien välittämistä asiakasdatan käyttäjille.

Esimerkiksi chatbotin tapauksessa asiakas voi ladata tuoteluettelonsa vektoritietokantaan, josta malli muuntaa sen upotetuksi omaisuudeksi.

Ajatuksena näyttää olevan, että vaikka Cloudflaren tarjoamalla Llama 2 -mallilla ei välttämättä ole erityistä tietoa asiakkaan tiedoista, chatbot voi silti nostaa oleellista tietoa tietokantapalveluun liittymällä. Cloudflaren mukaan tämä lähestymistapa tekee päättelee helpommin, nopeammin ja vähemmän resursseja vaativana, koska se erottaa asiakastiedot itse mallista.

Workers AI:n ja Vectorizen lisäksi Cloudflaren tekoälypaketti sisältää myös alustan päättelytyökuormien tarkkailemiseen, optimointiin ja hallintaan mittakaavassa.

Tekoälyyhdyskäytäväksi nimetty palvelu käyttää tekoälyn päättelyyn useita tyypillisesti sisällönjakeluverkkoihin ja verkkovälityspalvelimiin liittyviä ominaisuuksia, kuten välimuistia ja nopeuden rajoittamista, auttaakseen asiakkaita hallitsemaan kustannuksia.

"Käyttämällä välimuistiin usein käytetyt tekoälyvastaukset, se vähentää latenssia ja vahvistaa järjestelmän luotettavuutta, kun taas nopeuden rajoittaminen varmistaa tehokkaan resurssien allokoinnin, mikä lieventää tekoälyn kasvavien kustannusten haasteita", yritys selittää blogikirjoituksessaan.

Hinnoittelu ja saatavuus

Cloudflare toteaa, että palvelu on vielä käyttöönoton alkuvaiheessa, ja seitsemän sivustoa on verkossa tänään. Yritys kuitenkin ottaa käyttöön grafiikkasuoritteita tuodakseen palvelun 100 käyttöpisteeseen vuoden loppuun mennessä ja "melkein kaikkialla" vuoden 2024 loppuun mennessä.

Tämän seurauksena se ei suosittele tuotantosovellusten käyttöönottoa Workers AI:ssä vielä, vaan kuvailee sitä "varhaiseksi betaversioksi".

"Se, mitä julkaisimme tänään, on vain pieni esikatselu antaaksemme sinulle esimakua tulevasta", blogitekstissä lukee.

Kuten tavallista, Cloudflare sanoo, että se ei laskuta palvelusta ensimmäisenä päivänä. Sen mukaan se odottaa veloittavansa noin sentin jokaisesta tuhannesta "säännöllisestä nykimishermosolusta" ja 0.125 dollaria jokaisesta tuhannesta "nopeasti nykivästä hermosolusta". Ero näiden kahden välillä on se, että jälkimmäinen asettaa etusijalle loppukäyttäjän läheisyyden, kun taas halvempi kahdesta toimii missä tahansa Cloudflarella on ylikapasiteettia.

Neuronit ovat tapa mitata tekoälyn tuottoa, yhtiö selitti ja lisäsi, että tuhat neuronia riittää noin 130 LLM-vasteeseen, 830 kuvaluokitukseen tai 1,250 XNUMX upotukseen ®.

Aikaleima:

Lisää aiheesta Rekisteri