Il ruolo della CPU nell'AI/ML sostenibile

Il ruolo della CPU nell'AI/ML sostenibile

Nodo di origine: 3093662

Redazionale Man mano che l’intelligenza artificiale estende la sua portata agli ambienti informatici aziendali, il suo impatto sta causando alcuni effetti a catena imprevisti. L'ultima novità di IDC FutureSscape Il rapporto, ad esempio, prevede che mentre le aziende si affrettano a introdurre prodotti/servizi potenziati dall’intelligenza artificiale e ad assistere i propri clienti con implementazioni di intelligenza artificiale, la tecnologia diventerà un motivatore chiave per l’innovazione.

Un altro cambiamento guidato dall’intelligenza artificiale ruota attorno alla misura in cui i data center potrebbero dover bilanciare le CPU con acceleratori AI discreti, come GPU o architetture specializzate, al fine di fornire le capacità di elaborazione ad alte prestazioni richieste dagli sviluppatori di intelligenza artificiale.

È un dibattito che solleva questioni ad alta posta in gioco per i proprietari di data center, sia in termini di investimenti CAPEX aggiuntivi che di probabilità che (sebbene i metodi di misurazione siano imprecisi) le tipiche operazioni di intelligenza artificiale basate su GPU consumino più energia rispetto ai carichi di lavoro IT convenzionali.

Affrontare il maggiore sovraccarico energetico/carbonio dell’intelligenza artificiale è un ulteriore punto dolente per le operazioni dei data center, che devono anche garantire che le architetture di calcolo aggiornate e ottimizzate per l’intelligenza artificiale possano gestire le crescenti richieste di energia senza il rischio di sovraccaricare la tecnologia o le strutture esistenti.

Pertanto, poiché la regolamentazione estesa nella governance della sostenibilità e nella gestione del carbonio spinge le operazioni a ridurre il consumo di energia in tutta la gamma di hardware e software IT, l’intelligenza artificiale rappresenta sia un’opportunità che un ostacolo.

Mitigare il consumo energetico dell'IA

Nel loro insieme, l'aumento del consumo energetico e le necessarie riconfigurazioni architetturali richieste per accogliere i carichi di lavoro di intelligenza artificiale e machine learning rappresentano una sfida inesorabile per i data center, spiega Stephan Gillich, Direttore dell'Intelligenza Artificiale GTM presso il Centro di eccellenza AI di Intel.

“È abbastanza chiaro in tutti i settori e le industrie verticali, ovunque vengano sviluppati, addestrati e gestiti applicazioni e servizi di intelligenza artificiale/apprendimento automatico, che le capacità delle strutture IT on-premise e ospitate nel cloud dovranno essere sottoposte ad aggiornamenti per gestire maggiori volumi di dati -carichi di lavoro intensivi”, afferma Gillich. “È anche chiaro che tali aggiornamenti dovranno comportare qualcosa di più del semplice aumento delle capacità di calcolo”.

Si può fare molto per migliorare la sostenibilità dei data center incentrati sull’intelligenza artificiale, ritiene Gillich, a cominciare dalla rivalutazione di alcuni dei presupposti relativi al panorama dell’intelligenza artificiale e dell’apprendimento automatico. Le unità di elaborazione sono un buon punto di partenza, in particolare quando si decide se CPU o GPU sono più adatte all'attività.

Perché mentre i carichi di lavoro ad alta intensità di calcolo specifici dell'intelligenza artificiale sembrano essere in aumento (nessuno è sicuro a quale ritmo), la maggior parte del lavoro dei data center (i carichi di lavoro non basati sull'intelligenza artificiale) deve continuare ad accumularsi giorno dopo giorno, fornendo applicazioni costanti. e che i flussi di entrate derivanti dai servizi non vengano disturbati.

La maggior parte di questi sono attualmente gestiti da CPU e riadattare un data center standard con GPU più costose sarebbe, per moltissime strutture, un surplus rispetto ai requisiti. In termini generali, una GPU consuma più watt di una CPU per eseguire un compito simile. A seconda dell'alimentazione di una determinata configurazione di rack, l'integrazione delle GPU nell'infrastruttura del data center richiede, ad esempio, aggiornamenti ai sistemi di distribuzione dell'energia, che sono destinati a comportare costi iniziali aggiuntivi, oltre a bollette energetiche più elevate una volta in funzione.

Inoltre, lo sviluppo delle CPU Intel continua a innovare. In molteplici casi d’uso è possibile dimostrare che una CPU raggiunge prestazioni complessive altrettanto buone – e talvolta migliori – di una GPU, sostiene Gillich. E le loro prestazioni possono essere aumentate con tecnologie innovative come Intel® AMX (Advanced Matrix Extensions), un acceleratore integrato nelle CPU Intel Xeon di quarta generazione.

"I processori Intel Xeon possono consentire a un data center di ampliare l'adozione dell'intelligenza artificiale attraverso l'accelerazione dell'intelligenza artificiale integrata che aumenta le prestazioni della CPU per l'apprendimento automatico, la formazione e l'inferenza", sottolinea Gillich. "In questo modo, possono adottare acceleratori discreti per ridurre al minimo il CAPEX e massimizzare le prestazioni, sfruttando al tempo stesso gli ambienti di elaborazione Intel Xeon esistenti."

Necessità di combinare carichi di lavoro AI e non AI

Intel AMX è un blocco hardware dedicato sul core del processore Intel Xeon Scalable che consente l'esecuzione dei carichi di lavoro AI sulla CPU invece di scaricarli su un acceleratore discreto, fornendo un significativo incremento delle prestazioni. È adatto ai carichi di lavoro dell'intelligenza artificiale come i sistemi di raccomandazione del machine learning, il riconoscimento delle immagini e l'elaborazione del linguaggio naturale, che si basano sulla matematica delle matrici.

Un altro argomento a favore delle CPU aumentate è che forniscono agli operatori dei data center un percorso economicamente vantaggioso per aumentare gli impegni esistenti in termini di CPU, rendere le loro risorse a prova di futuro in modo che siano in grado di affrontare carichi di lavoro misti e metterli in grado di migliorare controllare il consumo energetico complessivo.

Ciò, a sua volta, potrebbe aiutare i fornitori di servizi di data center (e i loro clienti) a raggiungere gli obiettivi di sostenibilità e fornire un punto di vendita per gli sviluppatori di software (aziendali o di terze parti) che sono alla ricerca di una piattaforma ottimizzata per mostrare l'efficienza energetica della loro codifica. uscite.

“La realtà è che, invece di affrettarsi a cogliere le opportunità che i carichi di lavoro dell’intelligenza artificiale possono promettere, gli operatori dei data center si stanno rendendo conto che dovrebbero considerare una serie di imperativi che sono influenzati tanto da preoccupazioni commerciali quanto da scelte tecnologiche”, afferma Gillich.

Questi imperativi potrebbero includere: l’integrazione dei carichi di lavoro IA con carichi di lavoro non IA; l'integrazione di diversi stack hardware e software; e poiché vogliono garantire di avere un'architettura adatta a più carichi di lavoro diversi, l'integrazione di diversi tipi di flusso di lavoro.

"Queste domande implicano sfide complesse, perché risolverle nel modo giusto ha un impatto sull'efficienza energetica e tecnologica ottimale, con l'efficienza energetica ora un punto di riferimento fondamentale delle prestazioni che influenzerà sempre più la redditività commerciale di un data center", afferma Gillich. "Quindi, ancora una volta, è della massima importanza."

Dal punto di vista di Gillich, la chiave per adattarsi a questa realtà emergente è un processo graduale di quella che può essere definita “assimilazione dell’intelligenza artificiale”. Il primo punto è che i carichi di lavoro dell’intelligenza artificiale non sono separati da altri tipi di carichi di lavoro: saranno integrati nei carichi di lavoro convenzionali, anziché eseguiti separatamente.

Gillich fornisce la videoconferenza come esempio di questa integrazione graduale: “Già durante lo streaming del traffico audio/video standard attraverso applicazioni standard, l’intelligenza artificiale è integrata per eseguire attività concomitanti come riepilogo, traduzione, trascrizione. Tali funzionalità sono supportate molto bene dall'intelligenza artificiale.

Risparmio energetico end-to-end

Raggiungere l’efficienza energetica deve essere un’impresa strategica davvero end-to-end, sostiene Gillich. “Si estende sia al lato software che alle architetture hardware: il meccanismo completo che consente un determinato processo di flusso di lavoro. Dove vengono archiviati i dati per rendere l’accesso più efficiente – dal punto di vista informatico e quindi dal punto di vista energetico – è quello il posto migliore per l’efficienza energetica?”

L'altro fattore da includere in questa valutazione è determinare dove viene eseguito il carico di lavoro. Ad esempio, viene eseguito su client (come PC AI dotati di processori Intel Core Ultra, anziché su server nel data center? Alcuni di questi carichi di lavoro AI possono effettivamente essere eseguiti su client (insieme ai server)?

Ogni opzione è degna di considerazione se aiuterà a allineare meglio l'equilibrio tra calcolo dell'intelligenza artificiale e consumo energetico, sostiene Gillich: "È quasi come un ritorno alla vecchia nozione di calcolo distribuito".

Gillich aggiunge: “A volte i nostri clienti chiedono: 'Dove giocherà l'intelligenza artificiale?' – la risposta è che l’intelligenza artificiale giocherà ovunque. Quindi in Intel la nostra ambizione è focalizzata su ciò che potrebbe essere definito l’adattamento universale dell’intelligenza artificiale, perché crediamo che entrerà in tutti i campi di applicazione”.

In Intel questo comprende middleware come le API che, come qualsiasi altra parte dello stack software, devono essere il più efficienti possibile. La "diffusione incontrollata delle API" può comportare elaborazioni non necessarie, ridurre al minimo l'impatto dell'infrastruttura e la mancanza di monitoraggio e controllo.

"Con Intel oneAPI, le aziende possono sfruttare appieno il valore dell'hardware, sviluppare codice multiarchitettura ad alte prestazioni e rendere le proprie applicazioni pronte per le esigenze future", spiega Gillich.

“Intel oneAPI è un modello di programmazione aperto, intersettoriale, basato su standard, unificato, multiarchitettura e multivendor che offre un’esperienza di sviluppo comune attraverso le architetture dell’acceleratore, per prestazioni applicative più veloci e maggiore produttività. L’iniziativa oneAPI incoraggia la collaborazione sulle specifiche oneAPI e sulle implementazioni oneAPI compatibili in tutto l’ecosistema”.

Gillich aggiunge: "oneAPI fornisce uno stack middleware che prende elementi standard come AI Framework - come Pytorch o TensorFlow [la piattaforma software open source per AI e Machine Learning] - e li traduce a livello di macchina, e oneAPI consente un modo efficiente per Fai quello. Gli utenti possono utilizzare un’API comune a livello di framework Ai e noi abbiamo un’API (oneAPI) che affronta le diverse tipologie di hardware”. Quindi un'API comune significa che gli utenti possono creare software aperto che può essere supportato su uno stack software aperto.

Prestazioni a livello di GPU al prezzo di riferimento a livello di CPU

Il progresso nell'IT è guidato in gran parte dall'aspettativa di un continuo progresso tecnologico abbinato a miglioramenti guidati dall'intuizione nelle strategie di implementazione. È un modello basato sulla ricerca del miglior equilibrio possibile tra spesa di bilancio e ROI aziendale e sull'aspettativa che ci sia sempre ulteriore innovazione a cui tendere. L'intelligenza artificiale rappresenta l'apogeo di questo ideale: è abbastanza intelligente da reinventare la propria proposta di valore attraverso il continuo miglioramento personale.

Integrando l'acceleratore AMX nelle CPU Intel Xeon di quarta generazione, Intel mostra come è possibile ottenere prestazioni a livello di GPU a prezzi di riferimento a livello di CPU. Ciò consente ai data center di espandersi massimizzando al tempo stesso il valore di ritorno dei propri sistemi di elaborazione esistenti basati su Intel Xeon, ma fornisce anche un modello di prezzo che riduce il costo di ingresso per i clienti con carichi di lavoro AI ma budget limitati.

Inoltre, il minore consumo energetico delle CPU significa che l'efficienza energetica può essere raggiunta in modo olistico durante tutte le operazioni di un data center, come il raffreddamento e la ventilazione, e questo è un altro fattore vincente per gli architetti software e gli sviluppatori di soluzioni AL attenti alla sostenibilità.

Contributo di Intel.

Timestamp:

Di più da Il registro