LLM Inference on GPUer (Intel)

LLM Inference on GPUer (Intel)

Kilde node: 3095494

En teknisk artikkel med tittelen "Efficient LLM inference solution on Intel GPU" ble publisert av forskere ved Intel Corporation.

Abstrakt:

"Transformatorbaserte store språkmodeller (LLM) har blitt mye brukt på mange felt, og effektiviteten til LLM-slutninger blir et hett tema i virkelige applikasjoner. Imidlertid er LLM-er vanligvis komplisert utformet i modellstruktur med massive operasjoner og utfører inferens i autoregressiv modus, noe som gjør det til en utfordrende oppgave å designe et system med høy effektivitet.
I denne artikkelen foreslår vi en effektiv LLM-slutningsløsning med lav latens og høy gjennomstrømning. For det første forenkler vi LLM-dekoderlaget ved å smelte sammen databevegelse og elementvise operasjoner for å redusere minnetilgangsfrekvensen og redusere systemforsinkelsen. Vi foreslår også en segment KV-bufferpolicy for å beholde nøkkelen/verdien til forespørselen og svartokenene i separat fysisk minne for effektiv enhetsminneadministrasjon, noe som hjelper til med å forstørre batchstørrelsen for kjøretid og forbedre systemgjennomstrømningen. En tilpasset Scaled-Dot-Product-Attention-kjerne er designet for å matche vår fusjonspolicy basert på segmentets KV-bufferløsning. Vi implementerer vår LLM-slutningsløsning på Intel GPU og publiserer den offentlig. Sammenlignet med standard HuggingFace-implementering, oppnår den foreslåtte løsningen opptil 7 ganger lavere token-latens og 27 ganger høyere gjennomstrømning for noen populære LLM-er på Intel GPU.

Finn det teknisk papir her. Publisert desember 2023 (preprint).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu og Jinghui Gu. "Effektiv LLM-slutningsløsning på Intel GPU." arXiv preprint arXiv:2401.05391 (2023).

Relatert Reading
LLM-inferens om CPUer (Intel)
En teknisk artikkel med tittelen "Efficient LLM Inference on CPUs" ble publisert av forskere ved Intel.
AI raser mot kanten
Inferencing og noe trening blir skjøvet til mindre enheter etter hvert som AI sprer seg til nye applikasjoner.

Tidstempel:

Mer fra Semi -ingeniørfag