LLM Inference On GPUs (Intel) - Plato AiStream V2.1

Ponovno objavil Platon

Spremljevalci: 0

Tehnični članek z naslovom »Učinkovita rešitev LLM inference on Intel GPU« so objavili raziskovalci družbe Intel Corporation.

Povzetek:

»Large Language Models (LLM) na osnovi transformatorjev se pogosto uporabljajo na mnogih področjih in učinkovitost sklepanja LLM postane vroča tema v resničnih aplikacijah. Vendar so LLM-ji običajno zapleteno zasnovani v strukturi modela z množičnimi operacijami in izvajajo sklepanje v samoregresijskem načinu, zaradi česar je načrtovanje sistema z visoko učinkovitostjo zahtevna naloga.
V tem prispevku predlagamo učinkovito rešitev sklepanja LLM z nizko zakasnitvijo in visoko prepustnostjo. Prvič, poenostavimo plast dekodirnika LLM tako, da združimo premikanje podatkov in postopke po elementih, da zmanjšamo frekvenco dostopa do pomnilnika in zmanjšamo zakasnitev sistema. Predlagamo tudi pravilnik predpomnilnika segmenta KV, da ključ/vrednost žetonov zahteve in odgovora ostane v ločenem fizičnem pomnilniku za učinkovito upravljanje pomnilnika naprave, kar pomaga povečati velikost paketa med izvajanjem in izboljšati prepustnost sistema. Prilagojeno jedro Scaled-Dot-Product-Attention je zasnovano tako, da ustreza naši fuzijski politiki, ki temelji na rešitvi segmentnega predpomnilnika KV. Implementiramo našo rešitev sklepanja LLM na Intel GPU in jo javno objavimo. V primerjavi s standardno implementacijo HuggingFace predlagana rešitev dosega do 7-krat nižjo zakasnitev žetonov in 27-krat večjo prepustnost za nekatere priljubljene LLM-je na Intel GPU.”

Najdi tehnični papir tukaj. Izdano decembra 2023 (prednatis).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu in Jinghui Gu. »Učinkovita rešitev za sklepanje LLM na Intel GPU.« arXiv prednatis arXiv:2401.05391 (2023).

Sorodno branje
LLM sklepanje o procesorjih (Intel)
Raziskovalci pri Intelu so objavili tehnični članek z naslovom »Učinkovito LLM sklepanje o procesorjih«.
AI dirka do roba
Sklepanje in nekaj usposabljanja se prenašata na manjše naprave, ko se AI širi na nove aplikacije.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://semiengineering.com/llm-inference-on-gpus-intel/

Časovni žig: Februar 2, 2024

Časovni žig: Julij 5, 2023

LLM sklepanje o grafičnih procesorjih (Intel)

Ponovno objavil Platon

Povzetek:

Več od Semi Engineering

Od znano dobrega sistema do znano dobrega sistema z UCIe IP

Orodje EDA za odkrivanje ranljivosti SW-HW, ki zagotavlja zaupnost podatkov v arhitekturi RISC-V

3 ključni napredki avtomobilske tehnologije, ki si jih morate ogledati

Večnivojske celice FeFET za računalništvo v pomnilniku v 28 nm

III–V laser, gojen na vzorčasti Si Photonics platformi s svetlobno sklopko v pasivne SiN valovode

Raziskave: 24. jan

Arm Total Compute: inženiring za jutrišnje delovne obremenitve

Večjedrni paket BDD na osnovi indeksa z dinamičnim upravljanjem pomnilnika in zmanjšano fragmentacijo

Pregled metod za načrtovanje varnih računalniških sistemov z memristorjem

Nizka gostota DRAM-a LPDDR4x — najboljša izbira za Edge AI

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun