Cloudflare permite inteligenței artificiale să piardă marginea rețelei

Republicat de Platon

Urmaritori: 0

Modelele AI generative ar putea fi antrenate în grupuri masive de GPU, dar Cloudflare susține că locul evident pentru a le rula nu este doar la margine, ci în rețea însăși.

Miercuri gigantul livrărilor a anunțat o suită de servicii de inteligență artificială care vizează eliminarea complexității implementării și rulării modelelor în limbaj mare (LLM) și a altor algoritmi de învățare automată (ML), obținând în același timp cea mai scăzută latență posibilă.

Ei bine, de fapt, cea mai mică latență posibilă ar fi obținută prin rularea sarcinii de lucru de inferență pe dispozitivul utilizatorului. Intel a făcut o mare afacere în acest sens, pentru meciurile ascensiunea generației de PC-uri AI, săptămâna trecută la Intel Innovation. Dar, deși acest lucru ar putea avea sens în unele cazuri, Cloudflare susține că dispozitivele locale nu sunt încă suficient de puternice.

„Acest lucru face din rețea bucăți de aur ale inferenței. Nu prea departe, cu o putere de calcul suficientă – exact corect”, scrie biz.

Fără server pentru GPU

Suita AI cuprinde trei servicii de bază. Prima dintre acestea este o extensie a platformei Workers fără server pentru a suporta sarcinile de lucru accelerate GPU. Numit Workers AI, serviciul este conceput pentru a simplifica procesul de implementare a modelelor pre-instruite.

„Fără experiență în învățarea automată, fără a căuta GPU-uri. Alegeți unul dintre modelele furnizate și plecați”, susține Cloudflare.

Ni s-a spus că platforma rulează pe GPU-uri Nvidia, deși Cloudflare nu ne-a spus care dintre ele. „Tehnologia construită de Cloudflare poate împărți o sarcină de inferență pe mai multe GPU-uri diferite, pentru că ne ocupăm de programare și de sistem și vom decide ce cip sau cipuri au cel mai mult sens pentru a le oferi”, a spus acesta. Registrul într-o declarație.

În interesul simplității, platforma nu acceptă – cel puțin nu inițial – modelele furnizate de clienți. Ni s-a spus că intenționează să lanseze acest lucru funcțional în viitor, dar, deocamdată, este limitat la șase modele pre-antrenate, care includ:

Meta's Llama 2 7B Int8 pentru generarea de text
M2m100-1.2 de la Meta pentru traducere
Whisper de la OpenAI pentru recunoașterea vorbirii
Distilbert-sst-2-int8 de la Hugging Face pentru clasificarea textului
Microsoft Resnet-50 pentru clasificarea imaginilor
Bge-base-en-v1.5 de la Baai pentru încorporare

Cu toate acestea, Cloudflare spune că lucrează pentru a extinde această listă în viitorul apropiat. La fel ca mulți aspiranți la IA, a făcut-o solicitat ajutorul Hugging Face pentru a optimiza modele suplimentare pentru serviciu.

Nu este clar dacă există o limită a dimensiunii modelelor pe care platforma le poate suporta, dar lista inițială oferă câteva indicii. Cloudflare pune la dispoziție Llama 2 LLM cu parametrii de șapte miliarde de la Meta rulând la Int8, ceea ce ar necesita aproximativ 7 GB de memorie GPU. Compania notează, de asemenea, că „dacă doriți să rulați versiuni de modele cu sute de miliarde de parametri, cloudul centralizat va fi mai potrivit pentru volumul dvs. de lucru”.

Odată pus în funcțiune, Cloudflare spune că clienții pot integra serviciul în aplicațiile lor folosind API-urile REST sau legându-l în front-end-ul site-ului lor Pages.

Rezumând

Deoarece Workers AI acceptă doar deducerea modelelor pre-instruite, Cloudflare spune că a dezvoltat un serviciu de baze de date vectoriale numit Vectorize pentru a facilita modelele ML să transmită datele clienților utilizatorilor.

De exemplu, pentru un chatbot, un client ar putea să-și încarce catalogul de produse în baza de date vectorială, din care modelul l-ar transforma într-un activ încorporat.

Ideea pare să fie că, în timp ce modelul Llama 2 oferit de Cloudflare ar putea să nu aibă cunoștințe specifice despre datele unui client, chatbot-ul poate încă scoate la iveală informații relevante prin legarea la serviciul de bază de date. Potrivit Cloudflare, această abordare face deducerea mai accesibilă, mai rapidă și mai puțin intensivă în resurse, deoarece decuplează datele clienților de modelul în sine.

Pe lângă Workers AI și Vectorize, suita AI Cloudflare include și o platformă pentru monitorizarea, optimizarea și gestionarea sarcinilor de lucru de inferență la scară.

Numit AI Gateway, serviciul aplică mai multe caracteristici asociate în mod obișnuit cu rețelele de livrare a conținutului și cu proxy-urile web, cum ar fi stocarea în cache și limitarea ratei, pentru inferența AI pentru a ajuta clienții să controleze costurile.

„Prin memorarea în cache a răspunsurilor AI utilizate frecvent, reduce latența și sporește fiabilitatea sistemului, în timp ce limitarea ratei asigură o alocare eficientă a resurselor, atenuând provocările legate de creșterea costurilor AI”, explică compania în postarea pe blog.

Prețuri și disponibilitate

Cloudflare observă că serviciul este încă în fazele incipiente de implementare, având șapte site-uri online astăzi. Cu toate acestea, compania implementează GPU-uri pentru a aduce serviciul la 100 de puncte de prezență până la sfârșitul anului și „aproape peste tot” până la sfârșitul lui 2024.

Ca urmare, nu recomandă încă implementarea aplicațiilor de producție pe Workers AI, descriindu-l ca o „beta timpurie”.

„Ceea ce am lansat astăzi este doar o mică previzualizare pentru a vă oferi o idee despre ceea ce urmează”, se arată în postarea de pe blog.

Ca de obicei, Cloudflare spune că nu va factura serviciul în prima zi. Acestea fiind spuse, se așteaptă să încarce aproximativ un cent pentru fiecare mie de „neuroni de contracție obișnuiți” și 0.125 USD pentru fiecare mie de „neuroni de contracție rapidă”. Diferența dintre cele două este că acesta din urmă prioritizează proximitatea față de utilizatorul final, în timp ce cel mai puțin costisitor dintre cele două rulează oriunde Cloudflare are capacitate în exces.

Neuronii sunt o modalitate de a măsura producția AI, a explicat compania, adăugând că o mie de neuroni este bun pentru aproximativ 130 de răspunsuri LLM, 830 de clasificări de imagini sau 1,250 de înglobări ®.