LLM Inference On GPUs (Intel) - Plato AiStream V2.1

Återutgiven av Platon

anhängare: 0

En teknisk artikel med titeln "Efficient LLM inference solution on Intel GPU" publicerades av forskare vid Intel Corporation.

Sammanfattning:

"Transformatorbaserade stora språkmodeller (LLM) har använts i stor utsträckning inom många områden, och effektiviteten av LLM-inferens blir ett hett ämne i verkliga tillämpningar. Men LLM:er är vanligtvis komplicerat utformade i modellstruktur med massiva operationer och utför slutledning i det autoregressiva läget, vilket gör det till en utmanande uppgift att designa ett system med hög effektivitet.
I detta dokument föreslår vi en effektiv LLM-inferenslösning med låg latens och hög genomströmning. För det första förenklar vi LLM-avkodarskiktet genom att sammansmälta datarörelse och elementvisa operationer för att minska minnesåtkomstfrekvensen och minska systemets latens. Vi föreslår också en segment KV-cache-policy för att behålla nyckel/värde för begäran och svarstoken i separata fysiska minne för effektiv enhetsminneshantering, vilket hjälper till att utöka runtime-batchstorleken och förbättra systemets genomströmning. En anpassad Scaled-Dot-Product-Attention-kärna är designad för att matcha vår fusionspolicy baserat på segmentets KV-cachelösning. Vi implementerar vår LLM-inferenslösning på Intel GPU och publicerar den offentligt. Jämfört med den vanliga HuggingFace-implementeringen, uppnår den föreslagna lösningen upp till 7x lägre token-latens och 27x högre genomströmning för vissa populära LLM:er på Intel GPU.

Hitta tekniskt dokument här. Publicerad december 2023 (förtryck).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu och Jinghui Gu. "Effektiv LLM-inferenslösning på Intel GPU." arXiv förtryck arXiv:2401.05391 (2023).

Relaterad läsning
LLM-inferens om processorer (Intel)
En teknisk artikel med titeln "Efficient LLM Inference on CPUs" publicerades av forskare vid Intel.
AI rasar mot kanten
Inferencing och viss utbildning skjuts till mindre enheter när AI sprider sig till nya applikationer.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://semiengineering.com/llm-inference-on-gpus-intel/

Tidsstämpel: Februari 2, 2024

Tidsstämpel: Juli 5, 2023

LLM-inferens om GPU:er (Intel)

Återutgiven av Platon

Sammanfattning:

Mer från Semi-teknik

Från Känt Bra Die Till Känt Bra System Med UCIe IP

EDA-verktyg för att upptäcka SW-HW-sårbarheter som säkerställer datakonfidentialitet i en RISC-V-arkitektur

3 viktiga fordonsteknologiska framsteg att titta på

FeFET Multi-Level Cells för in-Memory Computing i 28nm

III–V-laser odlad på en mönstrad Si Photonics-plattform med ljuskoppling till passiva SiN-vågledare

Forskningsbitar: 24 januari

Arm Total Compute: Engineering för morgondagens arbetsbelastningar

Indexbaserat BDD-paket med flera kärnor med dynamisk minneshantering och minskad fragmentering

Genomgång av metoder för att designa säkra Memristor Computing Systems

Låg densitet av LPDDR4x DRAM — Det bästa valet för Edge AI

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto