Inferenza LLM su GPU (Intel)

Inferenza LLM su GPU (Intel)

Nodo di origine: 3095494

Un documento tecnico intitolato "Soluzione efficiente di inferenza LLM su GPU Intel" è stato pubblicato dai ricercatori di Intel Corporation.

Abstract:

“I Large Language Models (LLM) basati su trasformatore sono stati ampiamente utilizzati in molti campi e l’efficienza dell’inferenza LLM diventa un argomento scottante nelle applicazioni reali. Tuttavia, gli LLM sono solitamente progettati in modo complicato nella struttura del modello con operazioni massicce ed eseguono inferenza in modalità autoregressiva, rendendo un compito impegnativo progettare un sistema ad alta efficienza.
In questo articolo proponiamo un'efficiente soluzione di inferenza LLM con bassa latenza e throughput elevato. In primo luogo, semplifichiamo il livello del decodificatore LLM fondendo lo spostamento dei dati e le operazioni basate sugli elementi per ridurre la frequenza di accesso alla memoria e abbassare la latenza del sistema. Proponiamo inoltre una policy di cache KV del segmento per mantenere la chiave/valore dei token di richiesta e risposta in una memoria fisica separata per una gestione efficace della memoria del dispositivo, contribuendo ad ampliare le dimensioni del batch di runtime e a migliorare la velocità effettiva del sistema. Un kernel personalizzato Scaled-Dot-Product-Attention è progettato per soddisfare la nostra politica di fusione basata sulla soluzione cache KV del segmento. Implementiamo la nostra soluzione di inferenza LLM su GPU Intel e la pubblichiamo pubblicamente. Rispetto all’implementazione standard di HuggingFace, la soluzione proposta raggiunge una latenza dei token fino a 7 volte inferiore e un throughput 27 volte superiore per alcuni LLM popolari su GPU Intel”.

Trovare il documento tecnico qui. Pubblicato a dicembre 2023 (prestampa).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu e Jinghui Gu. "Soluzione di inferenza LLM efficiente su GPU Intel." prestampa di arXiv arXiv:2401.05391 (2023).

Lettura correlata
Inferenza LLM sulle CPU (Intel)
Un documento tecnico intitolato “Efficient LLM Inference on CPUs” è stato pubblicato dai ricercatori di Intel.
L'intelligenza artificiale corre al limite
L’inferenza e parte della formazione vengono spostate su dispositivi più piccoli man mano che l’intelligenza artificiale si diffonde in nuove applicazioni.

Timestamp:

Di più da Semiingegneria