LLM Inference On GPUer (Intel)

Publisert av Platon

Følgere: 0

En teknisk artikkel med tittelen "Efficient LLM inference solution on Intel GPU" ble publisert av forskere ved Intel Corporation.

Abstrakt:

"Transformatorbaserte store språkmodeller (LLM) har blitt mye brukt på mange felt, og effektiviteten til LLM-slutninger blir et hett tema i virkelige applikasjoner. Imidlertid er LLM-er vanligvis komplisert utformet i modellstruktur med massive operasjoner og utfører inferens i autoregressiv modus, noe som gjør det til en utfordrende oppgave å designe et system med høy effektivitet.
I denne artikkelen foreslår vi en effektiv LLM-slutningsløsning med lav latens og høy gjennomstrømning. For det første forenkler vi LLM-dekoderlaget ved å smelte sammen databevegelse og elementvise operasjoner for å redusere minnetilgangsfrekvensen og redusere systemforsinkelsen. Vi foreslår også en segment KV-bufferpolicy for å beholde nøkkelen/verdien til forespørselen og svartokenene i separat fysisk minne for effektiv enhetsminneadministrasjon, noe som hjelper til med å forstørre batchstørrelsen for kjøretid og forbedre systemgjennomstrømningen. En tilpasset Scaled-Dot-Product-Attention-kjerne er designet for å matche vår fusjonspolicy basert på segmentets KV-bufferløsning. Vi implementerer vår LLM-slutningsløsning på Intel GPU og publiserer den offentlig. Sammenlignet med standard HuggingFace-implementering, oppnår den foreslåtte løsningen opptil 7 ganger lavere token-latens og 27 ganger høyere gjennomstrømning for noen populære LLM-er på Intel GPU.

Finn det teknisk papir her. Publisert desember 2023 (preprint).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu og Jinghui Gu. "Effektiv LLM-slutningsløsning på Intel GPU." arXiv preprint arXiv:2401.05391 (2023).

Relatert Reading
LLM-inferens om CPUer (Intel)
En teknisk artikkel med tittelen "Efficient LLM Inference on CPUs" ble publisert av forskere ved Intel.
AI raser mot kanten
Inferencing og noe trening blir skjøvet til mindre enheter etter hvert som AI sprer seg til nye applikasjoner.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://semiengineering.com/llm-inference-on-gpus-intel/

Tidstempel: Februar 2, 2024

Tidstempel: Juli 5, 2023

Publisert av Platon

Abstrakt:

Mer fra Semi -ingeniørfag

Fra kjent god dør til kjent god system med UCIe IP

EDA-verktøy for å oppdage SW-HW-sårbarheter som sikrer datakonfidensialitet i en RISC-V-arkitektur

3 viktige fremskritt innen bilteknologi å se

FeFET Multi-Level Cells For In-Memory Computing i 28nm

III–V-laser dyrket på en mønstret Si Photonics-plattform med lyskobling til passive SiN-bølgeledere

Forskningsbiter: 24. januar

Arm Total Compute: Engineering for morgendagens arbeidsbelastninger

Indeksbasert multi-core BDD-pakke med dynamisk minneadministrasjon og redusert fragmentering

Gjennomgang av metoder for å designe sikre Memristor-datasystemer

Lav tetthet av LPDDR4x DRAM — Det beste valget for Edge AI

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn