LLM-inferentie over GPU's (Intel)

LLM-inferentie over GPU's (Intel)

Bronknooppunt: 3095494

Een technisch artikel met de titel “Efficient LLM inference Solution on Intel GPU” werd gepubliceerd door onderzoekers van Intel Corporation.

Abstract:

“Transformer-gebaseerde Large Language Models (LLM’s) worden op veel gebieden op grote schaal gebruikt, en de efficiëntie van LLM-inferentie wordt een hot topic in echte toepassingen. LLM's zijn echter meestal ingewikkeld ontworpen in een modelstructuur met enorme bewerkingen en voeren gevolgtrekkingen uit in de autoregressieve modus, waardoor het een uitdagende taak is om een ​​systeem met hoge efficiëntie te ontwerpen.
In dit artikel stellen we een efficiënte LLM-inferentieoplossing voor met lage latentie en hoge doorvoer. Ten eerste vereenvoudigen we de LLM-decoderlaag door databeweging en elementgewijze bewerkingen te combineren om de geheugentoegangsfrequentie te verminderen en de systeemlatentie te verlagen. We stellen ook een segment-KV-cachebeleid voor om de sleutel/waarde van de verzoek- en antwoordtokens in afzonderlijk fysiek geheugen te bewaren voor effectief apparaatgeheugenbeheer, waardoor de runtime-batchgrootte wordt vergroot en de systeemdoorvoer wordt verbeterd. Een aangepaste Scaled-Dot-Product-Attention-kernel is ontworpen om te passen bij ons fusiebeleid op basis van de segment KV-cache-oplossing. We implementeren onze LLM-inferentieoplossing op Intel GPU en publiceren deze openbaar. Vergeleken met de standaard HuggingFace-implementatie bereikt de voorgestelde oplossing tot 7x lagere tokenlatentie en 27x hogere doorvoer voor sommige populaire LLM’s op Intel GPU.”

Vind de technisch document hier. Gepubliceerd december 2023 (voordruk).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu en Jinghui Gu. “Efficiënte LLM-inferentieoplossing op Intel GPU.” arXiv voordruk arXiv:2401.05391 (2023).

Gerelateerd lezen
LLM-inferentie over CPU's (Intel)
Een technisch artikel met de titel “Efficient LLM Inference on CPUs” werd gepubliceerd door onderzoekers van Intel.
AI racet naar de rand
Inferentie en enige training worden naar kleinere apparaten gepusht naarmate AI zich naar nieuwe toepassingen verspreidt.

Tijdstempel:

Meer van Semi-engineering