Cloudflare lascia l'IA libera dai confini della rete

Cloudflare lascia l'IA libera dai confini della rete

Nodo di origine: 2906199

I modelli di intelligenza artificiale generativa potrebbero essere addestrati in enormi cluster di GPU, ma Cloudflare sostiene che il luogo più ovvio per eseguirli non è solo ai margini ma nella rete stessa.

Mercoledì il gigante delle consegne ha annunciato una suite di servizi di intelligenza artificiale volti a eliminare la complessità dell'implementazione e dell'esecuzione di modelli LLM (Large Language) e di altri algoritmi di apprendimento automatico (ML), ottenendo al tempo stesso la latenza più bassa possibile.

Ebbene, in realtà, la latenza più bassa possibile verrebbe raggiunta eseguendo il carico di lavoro di inferenza sul dispositivo dell'utente. Intel ha fatto un grosso problema a riguardo, touting l'ascesa della generazione di PC con intelligenza artificiale, la scorsa settimana all'Intel Innovation. Ma anche se in alcuni casi ciò potrebbe avere senso, Cloudflare sostiene che i dispositivi locali non sono ancora abbastanza potenti.

“Ciò rende la rete il ricciolo d’oro dell’inferenza. Non troppo lontano, con una potenza di calcolo sufficiente, giusto”, scrive il biz.

Serverless per GPU

La suite AI comprende tre servizi principali. Il primo di questi è un'estensione della sua piattaforma serverless Workers per supportare carichi di lavoro accelerati dalla GPU. Soprannominato Workers AI, il servizio è progettato per semplificare il processo di distribuzione di modelli pre-addestrati.

“Nessuna esperienza nel machine learning, nessuna ricerca nelle GPU. Basta scegliere uno dei modelli forniti e partire”, afferma Cloudflare.

Ci è stato detto che la piattaforma funziona su GPU Nvidia, anche se Cloudflare non ci ha detto quali. "La tecnologia creata da Cloudflare può suddividere un'attività di inferenza su più GPU diverse, perché ci prendiamo cura della pianificazione e del sistema e decideremo quale chip o quali chip hanno più senso per fornire ciò", ha affermato. Il registro in un comunicato.

Nell'interesse della semplicità, la piattaforma non supporta, almeno non inizialmente, i modelli forniti dal cliente. Ci è stato detto che prevede di implementarlo funzionalmente in futuro, ma, per ora, è limitato a sei modelli pre-addestrati, che includono:

  • Meta's Llama 2 7B Int8 per la generazione di testo
  • M2m100-1.2 di Meta per la traduzione
  • Whisper di OpenAI per il riconoscimento vocale
  • Distilbert-sst-2-int8 di Hugging Face per la classificazione del testo
  • Resnet-50 di Microsoft per la classificazione delle immagini
  • bge-base-en-v1.5 di Baai per gli incorporamenti

Tuttavia, Cloudflare afferma che sta lavorando per espandere questo elenco nel prossimo futuro. Come molti aspiranti all’intelligenza artificiale, lo ha fatto sollecitato l'aiuto di Hugging Face per ottimizzare modelli aggiuntivi per il servizio.

Non è chiaro se esiste un limite alla dimensione dei modelli che la piattaforma può supportare, ma l'elenco iniziale offre alcuni indizi. Cloudflare sta rendendo disponibile Llama 2 LLM da sette miliardi di parametri di Meta in esecuzione su Int8, che richiederebbe circa 7 GB di memoria GPU. L'azienda sottolinea inoltre che "se stai cercando di eseguire versioni di modelli con centinaia di miliardi di parametri, il cloud centralizzato sarà più adatto al tuo carico di lavoro".

Una volta installato e funzionante, Cloudflare afferma che i clienti possono integrare il servizio nelle loro applicazioni utilizzando le API REST o collegandolo al frontend del sito Web di Pages.

Mettere tutto insieme

Poiché Workers AI supporta solo l'inferenza su modelli pre-addestrati, Cloudflare afferma di aver sviluppato un servizio di database vettoriale chiamato Vectorize per rendere più semplice per i modelli ML il trasferimento dei dati dei clienti agli utenti

Ad esempio, per un chatbot, un cliente potrebbe caricare il proprio catalogo prodotti nel database vettoriale, da cui il modello lo convertirebbe in una risorsa incorporata.

L'idea sembra essere che, mentre il modello Llama 2 offerto da Cloudflare potrebbe non avere una conoscenza specifica dei dati di un cliente, il chatbot può comunque far emergere informazioni rilevanti collegandosi al servizio di database. Secondo Cloudflare, questo approccio fa inferenza più accessibile, più veloce e meno dispendiosa in termini di risorse perché disaccoppia i dati dei clienti dal modello stesso.

Oltre a Workers AI e Vectorize, la suite AI di Cloudflare include anche una piattaforma per il monitoraggio, l'ottimizzazione e la gestione dei carichi di lavoro di inferenza su larga scala.

Soprannominato AI Gateway, il servizio applica diverse funzionalità tipicamente associate alle reti di distribuzione dei contenuti e ai proxy web, come la memorizzazione nella cache e la limitazione della velocità, all'inferenza dell'intelligenza artificiale per aiutare i clienti a controllare i costi.

"Memorizzando nella cache le risposte dell'intelligenza artificiale utilizzate di frequente, riduce la latenza e rafforza l'affidabilità del sistema, mentre la limitazione della velocità garantisce un'allocazione efficiente delle risorse, mitigando le sfide legate all'aumento vertiginoso dei costi dell'intelligenza artificiale", spiega l'azienda nel post sul blog.

Prezzi e disponibilità

Cloudflare rileva che il servizio è ancora nelle prime fasi di implementazione, con sette siti online oggi. Tuttavia, l’azienda sta implementando le GPU per portare il servizio a 100 punti di presenza entro la fine dell’anno e “quasi ovunque” entro la fine del 2024.

Di conseguenza, non consiglia ancora di distribuire app di produzione su Workers AI, descrivendola come una "beta iniziale".

"Ciò che abbiamo rilasciato oggi è solo una piccola anteprima per darvi un assaggio di ciò che sta arrivando", si legge nel post sul blog.

Come al solito, Cloudflare afferma che non addebiterà il servizio il primo giorno. Detto questo, si prevede di addebitare circa un centesimo per ogni mille “neuroni a contrazione regolare” e 0.125 dollari per ogni mille “neuroni a contrazione rapida”. La differenza tra i due è che quest'ultimo dà priorità alla vicinanza all'utente finale, mentre il meno costoso dei due funziona ovunque Cloudflare abbia capacità in eccesso.

I neuroni sono un modo per misurare l'output dell'intelligenza artificiale, ha spiegato la società, aggiungendo che mille neuroni sono utili per circa 130 risposte LLM, 830 classificazioni di immagini o 1,250 incorporamenti.

Timestamp:

Di più da Il registro