LLM következtetés a GPU-kra (Intel)

LLM következtetés a GPU-kra (Intel)

Forrás csomópont: 3095494

Az Intel Corporation kutatói közzétették az „Efficient LLM következtetési megoldás az Intel GPU-n” című műszaki cikket.

Absztrakt:

„A transzformátor alapú nagy nyelvi modelleket (LLM) számos területen széles körben alkalmazzák, és az LLM következtetések hatékonysága forró téma a valós alkalmazásokban. Az LLM-eket azonban általában bonyolultan tervezték modellstruktúrában, hatalmas műveletekkel, és auto-regresszív módban hajtanak végre következtetéseket, így kihívást jelent a nagy hatékonyságú rendszer tervezése.
Ebben a cikkben egy hatékony LLM következtetési megoldást javasolunk alacsony késleltetéssel és nagy áteresztőképességgel. Először is leegyszerűsítjük az LLM dekóder réteget az adatmozgás és az elemenkénti műveletek egyesítésével, hogy csökkentsük a memóriaelérési gyakoriságot és a rendszer késleltetését. Javasolunk egy szegmens KV-gyorsítótár házirendet is, amely a kérés- és válaszjogkivonatok kulcsát/értékét külön fizikai memóriában tartja a hatékony eszközmemória-kezelés érdekében, elősegítve a futásidejű kötegméret növelését és a rendszer átviteli sebességének javítását. A testreszabott Scaled-Dot-Product-Attention kernelt úgy tervezték, hogy megfeleljen a szegmens KV gyorsítótár-megoldáson alapuló fúziós szabályzatunknak. LLM következtetési megoldásunkat Intel GPU-n implementáljuk, és nyilvánosan közzétesszük. A szabványos HuggingFace megvalósításhoz képest a javasolt megoldás akár 7-szer alacsonyabb token késleltetést és 27-szer nagyobb átviteli sebességet ér el néhány népszerű LLM-nél az Intel GPU-n.”

Keresse meg a műszaki papír itt. Megjelent 2023 decemberében (előnyomat).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu és Jinghui Gu. "Hatékony LLM következtetési megoldás Intel GPU-n." arXiv preprint arXiv:2401.05391 (2023).

Kapcsolódó olvasás
LLM következtetés a CPU-kra (Intel)
Az Intel kutatói megjelentettek egy műszaki cikket „Efficient LLM Inference on CPUs” címmel.
AI Races To The Edge
A következtetést és a képzést a kisebb eszközökre tolják át, ahogy az AI terjed az új alkalmazásokban.

Időbélyeg:

Még több Semi Engineering