LLM-inferens om GPU:er (Intel)

LLM-inferens om GPU:er (Intel)

Källnod: 3095494

En teknisk artikel med titeln "Efficient LLM inference solution on Intel GPU" publicerades av forskare vid Intel Corporation.

Sammanfattning:

"Transformatorbaserade stora språkmodeller (LLM) har använts i stor utsträckning inom många områden, och effektiviteten av LLM-inferens blir ett hett ämne i verkliga tillämpningar. Men LLM:er är vanligtvis komplicerat utformade i modellstruktur med massiva operationer och utför slutledning i det autoregressiva läget, vilket gör det till en utmanande uppgift att designa ett system med hög effektivitet.
I detta dokument föreslår vi en effektiv LLM-inferenslösning med låg latens och hög genomströmning. För det första förenklar vi LLM-avkodarskiktet genom att sammansmälta datarörelse och elementvisa operationer för att minska minnesåtkomstfrekvensen och minska systemets latens. Vi föreslår också en segment KV-cache-policy för att behålla nyckel/värde för begäran och svarstoken i separata fysiska minne för effektiv enhetsminneshantering, vilket hjälper till att utöka runtime-batchstorleken och förbättra systemets genomströmning. En anpassad Scaled-Dot-Product-Attention-kärna är designad för att matcha vår fusionspolicy baserat på segmentets KV-cachelösning. Vi implementerar vår LLM-inferenslösning på Intel GPU och publicerar den offentligt. Jämfört med den vanliga HuggingFace-implementeringen, uppnår den föreslagna lösningen upp till 7x lägre token-latens och 27x högre genomströmning för vissa populära LLM:er på Intel GPU.

Hitta tekniskt dokument här. Publicerad december 2023 (förtryck).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu och Jinghui Gu. "Effektiv LLM-inferenslösning på Intel GPU." arXiv förtryck arXiv:2401.05391 (2023).

Relaterad läsning
LLM-inferens om processorer (Intel)
En teknisk artikel med titeln "Efficient LLM Inference on CPUs" publicerades av forskare vid Intel.
AI rasar mot kanten
Inferencing och viss utbildning skjuts till mindre enheter när AI sprider sig till nya applikationer.

Tidsstämpel:

Mer från Semi-teknik