LLM-inferens om GPU'er (Intel)

LLM-inferens om GPU'er (Intel)

Kildeknude: 3095494

Et teknisk papir med titlen "Efficient LLM inference solution on Intel GPU" blev udgivet af forskere ved Intel Corporation.

Abstract:

"Transformerbaserede store sprogmodeller (LLM'er) er blevet brugt i vid udstrækning på mange områder, og effektiviteten af ​​LLM-inferens bliver et varmt emne i virkelige applikationer. LLM'er er dog normalt kompliceret designet i modelstruktur med massive operationer og udfører inferens i den autoregressive tilstand, hvilket gør det til en udfordrende opgave at designe et system med høj effektivitet.
I dette papir foreslår vi en effektiv LLM-inferensløsning med lav latens og høj gennemstrømning. For det første forenkler vi LLM-dekoderlaget ved at fusionere databevægelse og element-vise operationer for at reducere hukommelsesadgangsfrekvensen og reducere systemets latency. Vi foreslår også en segment KV-cachepolitik for at beholde nøglen/værdien af ​​anmodningen og svartokens i separat fysisk hukommelse for effektiv enhedshukommelsesstyring, der hjælper med at forstørre runtime-batchstørrelsen og forbedre systemets gennemløb. En tilpasset Scaled-Dot-Product-Attention-kerne er designet til at matche vores fusionspolitik baseret på segment KV-cache-løsningen. Vi implementerer vores LLM-inferensløsning på Intel GPU og udgiver den offentligt. Sammenlignet med HuggingFace-standardimplementeringen opnår den foreslåede løsning op til 7x lavere token-latens og 27x højere gennemløb for nogle populære LLM'er på Intel GPU."

Find teknisk papir her. Udgivet december 2023 (fortryk).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu og Jinghui Gu. "Effektiv LLM-inferensløsning på Intel GPU." arXiv fortryk arXiv:2401.05391 (2023).

Beslægtet læsning
LLM-inferens om CPU'er (Intel)
Et teknisk papir med titlen "Efficient LLM Inference on CPUs" blev offentliggjort af forskere hos Intel.
AI kører mod kanten
Inferencing og noget træning bliver skubbet til mindre enheder, efterhånden som AI spreder sig til nye applikationer.

Tidsstempel:

Mere fra Semi Engineering