La crescita della rete neurale richiede un ridimensionamento dei semiconduttori senza precedenti

Nodo di origine: 1878456

La verità è che siamo solo all’inizio della rivoluzione dell’intelligenza artificiale (AI). Le capacità dell’intelligenza artificiale stanno iniziando proprio ora a mostrare indizi su ciò che riserva il futuro. Ad esempio, le automobili utilizzano modelli di reti neurali grandi e complesse non solo per comprendere il loro ambiente, ma anche per sterzare e controllarsi. Per qualsiasi applicazione devono essere disponibili dati di addestramento per creare reti utili. Le dimensioni delle operazioni di addestramento e di inferenza stanno crescendo rapidamente man mano che i dati utili del mondo reale vengono incorporati nei modelli. Diamo un'occhiata alla crescita dei modelli negli ultimi anni per capire come ciò determina la necessità di potenza di elaborazione per l'addestramento e l'inferenza.

Crescita della rete neurale
Crescita della rete neurale

In una presentazione all'Ansys 2021 Ideas Digital Forum, il vicepresidente dell'ingegneria di Cerebras, Dhiraj Mallik, ha fornito alcune informazioni sulla crescita dei modelli di rete neurale. Negli ultimi due anni le dimensioni del modello sono aumentate di 1000 volte, da BERT Base (110 MB) a GPT-3 (175 GB). E in vista c'è il modello MSFT-1T, con una dimensione di 1 TB. Il modello GPT-3 – che è un argomento di per sé interessante – è stato addestrato con hardware convenzionale utilizzando 1024 GPU per 4 mesi. È un modello di elaborazione del linguaggio naturale (NLP) che utilizza la maggior parte dei dati di testo su Internet e altre fonti. È stato sviluppato da Open AI e ora costituisce la base per OpenAI Codex, un'applicazione in grado di scrivere codice di programmazione utile in diverse lingue a partire da semplici istruzioni fornite dagli utenti. GPT-3 può essere utilizzato per scrivere brevi articoli che la maggior parte dei lettori non può dire siano stati scritti da un programma di intelligenza artificiale.

Come puoi vedere sopra, non è fattibile eseguire 1024 GPU per 4 mesi. Nel suo discorso intitolato “Delivering Unprecedented AP Acceleration: Beyond Moore’s Law” Dhiraj sottolinea che i progressi necessari per supportare questo livello di crescita dei semiconduttori vanno ben oltre ciò che siamo abituati a vedere con la Legge di Moore. In risposta a questa percepita esigenza del mercato, Cerebras ha lanciato nel 1 il suo motore AI su scala wafer WSE-2019, 56 volte più grande di qualsiasi chip mai prodotto. Un anno e mezzo dopo annunciarono il WSE-2, ancora una volta il chip più grande mai costruito con:

  • 6 trilioni di transistor
  • 850,000 core AI ottimizzati
  • 40 GB di RAM
  • Larghezza di banda della memoria di 20 petabyte/s
  • Larghezza di banda del tessuto di 220 petabyte
  • Costruito con il processo N7 di TSMC
  • Un wafer contiene 84 matrici, ciascuna di 550 mm2.

Il sistema CS-2 che incapsula il WSE-2 può adattarsi a modelli di intelligenza artificiale con 120 trilioni di parametri. Ciò che è ancora più impressionante è che i sistemi CS-2 possono essere integrati in cluster da 192 unità per fornire guadagni di prestazioni quasi lineari. Cerebras ha sviluppato un sottosistema di memoria che disaggrega memoria e calcolo per fornire una migliore scalabilità e un migliore throughput per modelli estremamente grandi. Cerebras ha inoltre sviluppato ottimizzazioni per la scarsità nei set di allenamento, che consentono di risparmiare tempo ed energia.

La presentazione di Dhiraj approfondisce più in dettaglio le loro capacità, in particolare nell'area della scalabilità efficiente con modelli più grandi per mantenere il throughput e la capacità. Dal punto di vista dei semiconduttori è anche interessante vedere come Cerebras ha analizzato la caduta IR, l'elettromigrazione e l'approvazione ESD su un progetto che è 2 ordini di grandezza più grande di qualsiasi altra cosa mai tentata dall'industria dei semiconduttori. Dhiraj parla di come a ogni livello del progetto (tile, blocco e wafer completo) Cerebras ha utilizzato Ansys RedHawk-SC su più CPU per la firma del drop IR statico e dinamico. RedHawk-SC è stato utilizzato anche per i controlli dell'elettromigrazione di potenza e dell'elettromigrazione del segnale. Allo stesso modo, hanno utilizzato Ansys Pathfinder per la resistenza ESD e i controlli della densità di corrente.

Con un pezzo di silicio così grande da 7 nm, le decisioni relative allo strumento sono letteralmente “make or break”. Costruire un silicio così dirompente richiede molte scelte ben ponderate nel processo di sviluppo e una capacità senza pari è ovviamente una preoccupazione primaria. Tuttavia, come mostra chiaramente la presentazione di Dhiraj, il livello di maggiore potenza di elaborazione di CS-2 è necessario per gestire il tasso di crescita che stiamo vedendo nei modelli AI/ML. Senza dubbio vedremo innovazioni che vanno oltre la nostra immaginazione oggi nel campo dell’intelligenza artificiale. Proprio come il web e il cloud hanno alterato la tecnologia e persino la società, possiamo aspettarci che lo sviluppo della nuova tecnologia di intelligenza artificiale cambi il nostro mondo in modo drammatico. Se sei interessato a saperne di più sul silicio Cerebras, dai un'occhiata alla presentazione di Dhiraj su Ansys IDEAS Digital Forum su www.ansys.com/ideas.

Condividi questo post tramite: Fonte: https://semiwiki.com/eda/303587-neural-network-growth-requires-unprecedented-semiconductor-scaling/

Timestamp:

Di più da Semiwiki