Cloudflare libera l'intelligenza artificiale dai confini della rete

Ripubblicato da Platone

Seguaci: 0

I modelli di intelligenza artificiale generativa potrebbero essere addestrati in enormi cluster di GPU, ma Cloudflare sostiene che il luogo più ovvio per eseguirli non è solo ai margini ma nella rete stessa.

Mercoledì il gigante delle consegne ha annunciato una suite di servizi di intelligenza artificiale volti a eliminare la complessità dell'implementazione e dell'esecuzione di modelli LLM (Large Language) e di altri algoritmi di apprendimento automatico (ML), ottenendo al tempo stesso la latenza più bassa possibile.

Ebbene, in realtà, la latenza più bassa possibile verrebbe raggiunta eseguendo il carico di lavoro di inferenza sul dispositivo dell'utente. Intel ha fatto un grosso problema a riguardo, touting l'ascesa della generazione di PC con intelligenza artificiale, la scorsa settimana all'Intel Innovation. Ma anche se in alcuni casi ciò potrebbe avere senso, Cloudflare sostiene che i dispositivi locali non sono ancora abbastanza potenti.

“Ciò rende la rete il ricciolo d’oro dell’inferenza. Non troppo lontano, con una potenza di calcolo sufficiente, giusto”, scrive il biz.

Serverless per GPU

La suite AI comprende tre servizi principali. Il primo di questi è un'estensione della sua piattaforma serverless Workers per supportare carichi di lavoro accelerati dalla GPU. Soprannominato Workers AI, il servizio è progettato per semplificare il processo di distribuzione di modelli pre-addestrati.

“Nessuna esperienza nel machine learning, nessuna ricerca nelle GPU. Basta scegliere uno dei modelli forniti e partire”, afferma Cloudflare.

Ci è stato detto che la piattaforma funziona su GPU Nvidia, anche se Cloudflare non ci ha detto quali. "La tecnologia creata da Cloudflare può suddividere un'attività di inferenza su più GPU diverse, perché ci prendiamo cura della pianificazione e del sistema e decideremo quale chip o quali chip hanno più senso per fornire ciò", ha affermato. Il registro in un comunicato.

Nell'interesse della semplicità, la piattaforma non supporta, almeno non inizialmente, i modelli forniti dal cliente. Ci è stato detto che prevede di implementarlo funzionalmente in futuro, ma, per ora, è limitato a sei modelli pre-addestrati, che includono:

Meta's Llama 2 7B Int8 per la generazione di testo
M2m100-1.2 di Meta per la traduzione
Whisper di OpenAI per il riconoscimento vocale
Distilbert-sst-2-int8 di Hugging Face per la classificazione del testo
Resnet-50 di Microsoft per la classificazione delle immagini
bge-base-en-v1.5 di Baai per gli incorporamenti

Tuttavia, Cloudflare afferma che sta lavorando per espandere questo elenco nel prossimo futuro. Come molti aspiranti all’intelligenza artificiale, lo ha fatto sollecitato l'aiuto di Hugging Face per ottimizzare modelli aggiuntivi per il servizio.

Non è chiaro se esiste un limite alla dimensione dei modelli che la piattaforma può supportare, ma l'elenco iniziale offre alcuni indizi. Cloudflare sta rendendo disponibile Llama 2 LLM da sette miliardi di parametri di Meta in esecuzione su Int8, che richiederebbe circa 7 GB di memoria GPU. L'azienda sottolinea inoltre che "se stai cercando di eseguire versioni di modelli con centinaia di miliardi di parametri, il cloud centralizzato sarà più adatto al tuo carico di lavoro".

Una volta installato e funzionante, Cloudflare afferma che i clienti possono integrare il servizio nelle loro applicazioni utilizzando le API REST o collegandolo al frontend del sito Web di Pages.

Mettere tutto insieme

Poiché Workers AI supporta solo l'inferenza su modelli pre-addestrati, Cloudflare afferma di aver sviluppato un servizio di database vettoriale chiamato Vectorize per rendere più semplice per i modelli ML il trasferimento dei dati dei clienti agli utenti

Ad esempio, per un chatbot, un cliente potrebbe caricare il proprio catalogo prodotti nel database vettoriale, da cui il modello lo convertirebbe in una risorsa incorporata.

L'idea sembra essere che, mentre il modello Llama 2 offerto da Cloudflare potrebbe non avere una conoscenza specifica dei dati di un cliente, il chatbot può comunque far emergere informazioni rilevanti collegandosi al servizio di database. Secondo Cloudflare, questo approccio fa inferenza più accessibile, più veloce e meno dispendiosa in termini di risorse perché disaccoppia i dati dei clienti dal modello stesso.

Oltre a Workers AI e Vectorize, la suite AI di Cloudflare include anche una piattaforma per il monitoraggio, l'ottimizzazione e la gestione dei carichi di lavoro di inferenza su larga scala.

Soprannominato AI Gateway, il servizio applica diverse funzionalità tipicamente associate alle reti di distribuzione dei contenuti e ai proxy web, come la memorizzazione nella cache e la limitazione della velocità, all'inferenza dell'intelligenza artificiale per aiutare i clienti a controllare i costi.

"Memorizzando nella cache le risposte dell'intelligenza artificiale utilizzate di frequente, riduce la latenza e rafforza l'affidabilità del sistema, mentre la limitazione della velocità garantisce un'allocazione efficiente delle risorse, mitigando le sfide legate all'aumento vertiginoso dei costi dell'intelligenza artificiale", spiega l'azienda nel post sul blog.

Prezzi e disponibilità

Cloudflare rileva che il servizio è ancora nelle prime fasi di implementazione, con sette siti online oggi. Tuttavia, l’azienda sta implementando le GPU per portare il servizio a 100 punti di presenza entro la fine dell’anno e “quasi ovunque” entro la fine del 2024.

Di conseguenza, non consiglia ancora di distribuire app di produzione su Workers AI, descrivendola come una "beta iniziale".

"Ciò che abbiamo rilasciato oggi è solo una piccola anteprima per darvi un assaggio di ciò che sta arrivando", si legge nel post sul blog.

Come al solito, Cloudflare afferma che non addebiterà il servizio il primo giorno. Detto questo, si prevede di addebitare circa un centesimo per ogni mille “neuroni a contrazione regolare” e 0.125 dollari per ogni mille “neuroni a contrazione rapida”. La differenza tra i due è che quest'ultimo dà priorità alla vicinanza all'utente finale, mentre il meno costoso dei due funziona ovunque Cloudflare abbia capacità in eccesso.

I neuroni sono un modo per misurare l'output dell'intelligenza artificiale, ha spiegato la società, aggiungendo che mille neuroni sono utili per circa 130 risposte LLM, 830 classificazioni di immagini o 1,250 incorporamenti.

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
Fonte: https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/

Timestamp: 28 settembre 2023

Di più da Il registro

La visione artificiale è la cura per le sparatorie nelle scuole? Probabilmente no

Cluster di origine:

Cluster di origine:

Il registro

Nodo di origine: 2631792

Timestamp: 4 Maggio 2023

La Toyota riprende gli autobus autonomi delle Paralimpiadi dopo che il veicolo ha colpito un concorrente di judo, costringendolo a uscire dalla partita

Cluster di origine:

Il registro

Nodo di origine: 1170849

Timestamp: 30 agosto 2021

Ripubblicato da Platone

La visione artificiale è la cura per le sparatorie nelle scuole? Probabilmente no

Boffins converte i suoni di battitura in testo con una precisione del 95%.

È la tua arroganza umana che trattiene l'accettazione dell'IA

Aggiungere AI a tutto non avrà senso finché non potremo usarla per qualsiasi cosa

OpenAI ha citato in giudizio dopo che ChatGPT ha affermato falsamente che l'uomo ha sottratto denaro

Gli agenti del call center AI di Google si prendono tutti la mattina libera

Non posso farlo, Dave: l'intelligenza artificiale annega le migliori riviste di fantascienza con proposte di storie

Non ci sono abbastanza medici. Quindi, possiamo fare affidamento su una tecnologia sanitaria più intelligente?

Il CEO di IBM spiega perché ha scaricato Watson Health: competenze di dominio insufficienti

La corsa agli armamenti di oggi riguarda l'intelligenza artificiale ed è Cina contro America, afferma il segretario alla Difesa degli Stati Uniti

I cani da guardia del monopolio americano e britannico sondano l'intelligenza artificiale per assicurarsi che non ci freghino

La Toyota riprende gli autobus autonomi delle Paralimpiadi dopo che il veicolo ha colpito un concorrente di judo, costringendolo a uscire dalla partita

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account