LLM sklepanje o grafičnih procesorjih (Intel)

LLM sklepanje o grafičnih procesorjih (Intel)

Izvorno vozlišče: 3095494

Tehnični članek z naslovom »Učinkovita rešitev LLM inference on Intel GPU« so objavili raziskovalci družbe Intel Corporation.

Povzetek:

»Large Language Models (LLM) na osnovi transformatorjev se pogosto uporabljajo na mnogih področjih in učinkovitost sklepanja LLM postane vroča tema v resničnih aplikacijah. Vendar so LLM-ji običajno zapleteno zasnovani v strukturi modela z množičnimi operacijami in izvajajo sklepanje v samoregresijskem načinu, zaradi česar je načrtovanje sistema z visoko učinkovitostjo zahtevna naloga.
V tem prispevku predlagamo učinkovito rešitev sklepanja LLM z nizko zakasnitvijo in visoko prepustnostjo. Prvič, poenostavimo plast dekodirnika LLM tako, da združimo premikanje podatkov in postopke po elementih, da zmanjšamo frekvenco dostopa do pomnilnika in zmanjšamo zakasnitev sistema. Predlagamo tudi pravilnik predpomnilnika segmenta KV, da ključ/vrednost žetonov zahteve in odgovora ostane v ločenem fizičnem pomnilniku za učinkovito upravljanje pomnilnika naprave, kar pomaga povečati velikost paketa med izvajanjem in izboljšati prepustnost sistema. Prilagojeno jedro Scaled-Dot-Product-Attention je zasnovano tako, da ustreza naši fuzijski politiki, ki temelji na rešitvi segmentnega predpomnilnika KV. Implementiramo našo rešitev sklepanja LLM na Intel GPU in jo javno objavimo. V primerjavi s standardno implementacijo HuggingFace predlagana rešitev dosega do 7-krat nižjo zakasnitev žetonov in 27-krat večjo prepustnost za nekatere priljubljene LLM-je na Intel GPU.”

Najdi tehnični papir tukaj. Izdano decembra 2023 (prednatis).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu in Jinghui Gu. »Učinkovita rešitev za sklepanje LLM na Intel GPU.« arXiv prednatis arXiv:2401.05391 (2023).

Sorodno branje
LLM sklepanje o procesorjih (Intel)
Raziskovalci pri Intelu so objavili tehnični članek z naslovom »Učinkovito LLM sklepanje o procesorjih«.
AI dirka do roba
Sklepanje in nekaj usposabljanja se prenašata na manjše naprave, ko se AI širi na nove aplikacije.

Časovni žig:

Več od Semi Engineering