LLM Inference On GPU'er (Intel) - Plato AiStream V2.1

Genudgivet af Platon

Abonnenter: 0

Et teknisk papir med titlen "Efficient LLM inference solution on Intel GPU" blev udgivet af forskere ved Intel Corporation.

Abstract:

"Transformerbaserede store sprogmodeller (LLM'er) er blevet brugt i vid udstrækning på mange områder, og effektiviteten af LLM-inferens bliver et varmt emne i virkelige applikationer. LLM'er er dog normalt kompliceret designet i modelstruktur med massive operationer og udfører inferens i den autoregressive tilstand, hvilket gør det til en udfordrende opgave at designe et system med høj effektivitet.
I dette papir foreslår vi en effektiv LLM-inferensløsning med lav latens og høj gennemstrømning. For det første forenkler vi LLM-dekoderlaget ved at fusionere databevægelse og element-vise operationer for at reducere hukommelsesadgangsfrekvensen og reducere systemets latency. Vi foreslår også en segment KV-cachepolitik for at beholde nøglen/værdien af anmodningen og svartokens i separat fysisk hukommelse for effektiv enhedshukommelsesstyring, der hjælper med at forstørre runtime-batchstørrelsen og forbedre systemets gennemløb. En tilpasset Scaled-Dot-Product-Attention-kerne er designet til at matche vores fusionspolitik baseret på segment KV-cache-løsningen. Vi implementerer vores LLM-inferensløsning på Intel GPU og udgiver den offentligt. Sammenlignet med HuggingFace-standardimplementeringen opnår den foreslåede løsning op til 7x lavere token-latens og 27x højere gennemløb for nogle populære LLM'er på Intel GPU."

Find teknisk papir her. Udgivet december 2023 (fortryk).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu og Jinghui Gu. "Effektiv LLM-inferensløsning på Intel GPU." arXiv fortryk arXiv:2401.05391 (2023).

Beslægtet læsning
LLM-inferens om CPU'er (Intel)
Et teknisk papir med titlen "Efficient LLM Inference on CPUs" blev offentliggjort af forskere hos Intel.
AI kører mod kanten
Inferencing og noget træning bliver skubbet til mindre enheder, efterhånden som AI spreder sig til nye applikationer.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://semiengineering.com/llm-inference-on-gpus-intel/

Tidsstempel: Februar 2, 2024

Tidsstempel: Juli 5, 2023

LLM-inferens om GPU'er (Intel)

Genudgivet af Platon

Abstract:

Mere fra Semi Engineering

Fra kendt god dør til kendt god system med UCIe IP

EDA-værktøj til at opdage SW-HW-sårbarheder, der sikrer datafortrolighed i en RISC-V-arkitektur

3 vigtige bilteknologiske fremskridt at se

FeFET Multi-Level Celler til In-Memory Computing i 28nm

III–V-laser dyrket på en mønstret Si Photonics-platform med lyskobling til passive SiN-bølgeledere

Research Bits: 24. januar

Arm Total Compute: Engineering til morgendagens arbejdsbelastninger

Indeksbaseret multi-core BDD-pakke med dynamisk hukommelsesstyring og reduceret fragmentering

Gennemgang af metoder til at designe sikre Memristor-computersystemer

Lav tæthed af LPDDR4x DRAM — Det bedste valg til Edge AI

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto