LLM-i järeldus GPU-de kohta (Intel)

LLM-i järeldus GPU-de kohta (Intel)

Allikasõlm: 3095494

Intel Corporationi teadlased avaldasid tehnilise dokumendi pealkirjaga "Tõhus LLM-i järelduslahendus Inteli GPU-s".

Abstraktne:

"Transformaatoripõhiseid suuri keelemudeleid (LLM) on laialdaselt kasutatud paljudes valdkondades ja LLM-i järelduste tõhusus muutub reaalsetes rakendustes kuumaks teemaks. Kuid LLM-id on tavaliselt keerukalt kavandatud mudelistruktuuris, kus tehakse massiivseid toiminguid ja nad teevad järeldusi automaatregressiivses režiimis, mistõttu on kõrge efektiivsusega süsteemi kavandamine keeruline ülesanne.
Selles artiklis pakume välja tõhusa LLM-i järelduslahenduse, millel on madal latentsusaeg ja suur läbilaskevõime. Esiteks lihtsustame LLM-dekoodri kihti, ühendades andmete liikumise ja elemendipõhised toimingud, et vähendada mälu juurdepääsu sagedust ja süsteemi latentsust. Samuti pakume välja segmendi KV vahemälupoliitika, et hoida päringu- ja vastuselubade võtit/väärtust eraldi füüsilises mälus, et seadme mälu tõhusalt hallata, aidates suurendada käitusaja partii suurust ja parandada süsteemi läbilaskevõimet. Kohandatud Scaled-Dot-Product-Attention tuum on loodud vastama meie liitepoliitikale, mis põhineb segmendi KV vahemälu lahendusel. Rakendame oma LLM-i järelduslahendust Inteli GPU-s ja avaldame selle avalikult. Võrreldes standardse HuggingFace'i juurutamisega saavutab pakutud lahendus mõne populaarse Inteli GPU-s LLM-i puhul kuni 7 korda väiksema märgi latentsuse ja 27 korda suurema läbilaskevõime.

Leia tehniline paber siin. Avaldatud detsember 2023 (eeltrükk).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu ja Jinghui Gu. "Tõhus LLM-i järelduslahendus Inteli GPU-l." arXiv eeltrükk arXiv:2401.05391 (2023).

Seotud lugemine
LLM-i järeldus CPU-de kohta (Intel)
Inteli teadlased avaldasid tehnilise dokumendi pealkirjaga "Efficient LLM Inference on CPUs".
AI Races To The Edge
Järelduste tegemine ja mõned koolitused surutakse väiksematesse seadmetesse, kuna tehisintellekt levib uutesse rakendustesse.

Ajatempel:

Veel alates Pooltehnika