Inferenza LLM su GPU (Intel)

Ripubblicato da Platone

Seguaci: 0

Un documento tecnico intitolato "Soluzione efficiente di inferenza LLM su GPU Intel" è stato pubblicato dai ricercatori di Intel Corporation.

Abstract:

“I Large Language Models (LLM) basati su trasformatore sono stati ampiamente utilizzati in molti campi e l’efficienza dell’inferenza LLM diventa un argomento scottante nelle applicazioni reali. Tuttavia, gli LLM sono solitamente progettati in modo complicato nella struttura del modello con operazioni massicce ed eseguono inferenza in modalità autoregressiva, rendendo un compito impegnativo progettare un sistema ad alta efficienza.
In questo articolo proponiamo un'efficiente soluzione di inferenza LLM con bassa latenza e throughput elevato. In primo luogo, semplifichiamo il livello del decodificatore LLM fondendo lo spostamento dei dati e le operazioni basate sugli elementi per ridurre la frequenza di accesso alla memoria e abbassare la latenza del sistema. Proponiamo inoltre una policy di cache KV del segmento per mantenere la chiave/valore dei token di richiesta e risposta in una memoria fisica separata per una gestione efficace della memoria del dispositivo, contribuendo ad ampliare le dimensioni del batch di runtime e a migliorare la velocità effettiva del sistema. Un kernel personalizzato Scaled-Dot-Product-Attention è progettato per soddisfare la nostra politica di fusione basata sulla soluzione cache KV del segmento. Implementiamo la nostra soluzione di inferenza LLM su GPU Intel e la pubblichiamo pubblicamente. Rispetto all’implementazione standard di HuggingFace, la soluzione proposta raggiunge una latenza dei token fino a 7 volte inferiore e un throughput 27 volte superiore per alcuni LLM popolari su GPU Intel”.

Trovare il documento tecnico qui. Pubblicato a dicembre 2023 (prestampa).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu e Jinghui Gu. "Soluzione di inferenza LLM efficiente su GPU Intel." prestampa di arXiv arXiv:2401.05391 (2023).

Lettura correlata
Inferenza LLM sulle CPU (Intel)
Un documento tecnico intitolato “Efficient LLM Inference on CPUs” è stato pubblicato dai ricercatori di Intel.
L'intelligenza artificiale corre al limite
L’inferenza e parte della formazione vengono spostate su dispositivi più piccoli man mano che l’intelligenza artificiale si diffonde in nuove applicazioni.

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
Fonte: https://semiengineering.com/llm-inference-on-gpus-intel/

Timestamp: 2 Febbraio 2024

Timestamp: Luglio 5, 2023

Ripubblicato da Platone

Abstract:

Di più da Semiingegneria

Da Known Good Die a Known Good System con IP UCIe

Strumento EDA per rilevare le vulnerabilità SW-HW garantendo la riservatezza dei dati in un'architettura RISC-V

3 principali progressi della tecnologia automobilistica da tenere d'occhio

Celle multilivello FeFET per elaborazione in memoria in 28 nm

Laser III-V cresciuto su una piattaforma fotonica Si modellata con accoppiamento leggero in guide d'onda SiN passive

Bit di ricerca: 24 gennaio

Arm Total Compute: ingegneria per i carichi di lavoro di domani

Pacchetto BDD multi-core basato su indice con gestione dinamica della memoria e frammentazione ridotta

Revisione dei metodi per progettare sistemi di calcolo Memristor sicuri

Bassa densità di DRAM LPDDR4x: la scelta migliore per l'intelligenza artificiale Edge

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account