LLM-inferentie over GPU's (Intel)

Heruitgegeven door Plato

volgers: 0

Een technisch artikel met de titel “Efficient LLM inference Solution on Intel GPU” werd gepubliceerd door onderzoekers van Intel Corporation.

Abstract:

“Transformer-gebaseerde Large Language Models (LLM’s) worden op veel gebieden op grote schaal gebruikt, en de efficiëntie van LLM-inferentie wordt een hot topic in echte toepassingen. LLM's zijn echter meestal ingewikkeld ontworpen in een modelstructuur met enorme bewerkingen en voeren gevolgtrekkingen uit in de autoregressieve modus, waardoor het een uitdagende taak is om een systeem met hoge efficiëntie te ontwerpen.
In dit artikel stellen we een efficiënte LLM-inferentieoplossing voor met lage latentie en hoge doorvoer. Ten eerste vereenvoudigen we de LLM-decoderlaag door databeweging en elementgewijze bewerkingen te combineren om de geheugentoegangsfrequentie te verminderen en de systeemlatentie te verlagen. We stellen ook een segment-KV-cachebeleid voor om de sleutel/waarde van de verzoek- en antwoordtokens in afzonderlijk fysiek geheugen te bewaren voor effectief apparaatgeheugenbeheer, waardoor de runtime-batchgrootte wordt vergroot en de systeemdoorvoer wordt verbeterd. Een aangepaste Scaled-Dot-Product-Attention-kernel is ontworpen om te passen bij ons fusiebeleid op basis van de segment KV-cache-oplossing. We implementeren onze LLM-inferentieoplossing op Intel GPU en publiceren deze openbaar. Vergeleken met de standaard HuggingFace-implementatie bereikt de voorgestelde oplossing tot 7x lagere tokenlatentie en 27x hogere doorvoer voor sommige populaire LLM’s op Intel GPU.”

Vind de technisch document hier. Gepubliceerd december 2023 (voordruk).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu en Jinghui Gu. “Efficiënte LLM-inferentieoplossing op Intel GPU.” arXiv voordruk arXiv:2401.05391 (2023).

Gerelateerd lezen
LLM-inferentie over CPU's (Intel)
Een technisch artikel met de titel “Efficient LLM Inference on CPUs” werd gepubliceerd door onderzoekers van Intel.
AI racet naar de rand
Inferentie en enige training worden naar kleinere apparaten gepusht naarmate AI zich naar nieuwe toepassingen verspreidt.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://semiengineering.com/llm-inference-on-gpus-intel/

Tijdstempel: 2 februari 2024

Tijdstempel: Juli 5, 2023

LLM-inferentie over GPU's (Intel)

Heruitgegeven door Plato

Abstract:

Meer van Semi-engineering

Van bekende goede matrijs naar bekend goed systeem met UCIe IP

EDA-tool om SW-HW-kwetsbaarheden te detecteren en de vertrouwelijkheid van gegevens te waarborgen in een RISC-V-architectuur

3 belangrijke technologische ontwikkelingen in de auto-industrie om in de gaten te houden

FeFET-cellen met meerdere niveaus voor computergebruik in het geheugen in 28 nm

III-V laser gegroeid op een Si-fotonica-platform met patroon met lichtkoppeling in passieve SiN-golfgeleiders

Onderzoeksbits: 24 januari

Arm Total Compute: techniek voor de werklasten van morgen

Indexgebaseerd multi-core BDD-pakket met dynamisch geheugenbeheer en verminderde fragmentatie

Beoordeling van methoden om veilige Memristor-computersystemen te ontwerpen

Lage dichtheid van LPDDR4x DRAM – de beste keuze voor Edge AI

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account