LLM-päätelmä GPU:ista (Intel)

Julkaissut Platon

seuraajia: 0

Intel Corporationin tutkijat julkaisivat teknisen paperin nimeltä "Tehokas LLM-johtopäätösratkaisu Intel GPU:lla".

Tiivistelmä:

"Transformer-pohjaisia suuria kielimalleja (LLM) on käytetty laajasti monilla aloilla, ja LLM-päättelyn tehokkuudesta tulee kuuma puheenaihe todellisissa sovelluksissa. LLM:t on kuitenkin yleensä monimutkaisesti suunniteltu mallirakenteessa, jossa on valtavia operaatioita, ja ne tekevät päätelmiä autoregressiivisessä tilassa, mikä tekee järjestelmän suunnittelusta erittäin tehokkaan haastavan.
Tässä artikkelissa ehdotamme tehokasta LLM-päätelmäratkaisua alhaisella latenssilla ja suurella suorituskyvyllä. Ensinnäkin yksinkertaistamme LLM-dekooderikerrosta yhdistämällä tiedonsiirron ja elementtikohtaiset toiminnot muistin käyttötaajuuden ja järjestelmän latenssin pienentämiseksi. Ehdotamme myös segmentin KV-välimuistikäytäntöä, joka pitää pyyntö- ja vastaustunnisteiden avaimen/arvon erillisessä fyysisessä muistissa tehokkaan laitteen muistin hallinnan varmistamiseksi, mikä auttaa suurentamaan ajonaikaista eräkokoa ja parantamaan järjestelmän suorituskykyä. Mukautettu Scaled-Dot-Product-Attention-ydin on suunniteltu vastaamaan fuusiokäytäntöämme, joka perustuu segmentin KV-välimuistiratkaisuun. Toteutamme LLM-johtopäätösratkaisumme Intel GPU:ssa ja julkaisemme sen julkisesti. Tavalliseen HuggingFace-toteutukseen verrattuna ehdotettu ratkaisu saavuttaa jopa 7x pienemmän tunnuksen latenssin ja 27x suuremman suorituskyvyn joillakin suosituilla LLM:illä Intelin GPU:ssa."

Etsi tekninen paperi täällä. Julkaistu joulukuussa 2023 (esipainos).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu ja Jinghui Gu. "Tehokas LLM-johtopäätösratkaisu Intelin GPU:lla." arXiv preprint arXiv:2401.05391 (2023).

Aiheeseen liittyvä lukeminen
LLM-päätelmä suorittimista (Intel)
Intelin tutkijat julkaisivat teknisen paperin nimeltä "Efficient LLM Inference on CPUs".
AI Races To The Edge
Päätelmiä ja koulutusta siirretään pienempiin laitteisiin, kun tekoäly leviää uusiin sovelluksiin.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://semiengineering.com/llm-inference-on-gpus-intel/

Aikaleima: Helmikuu 2, 2024

Aikaleima: Heinäkuu 5, 2023

Julkaissut Platon

Tiivistelmä:

Lisää aiheesta Semi Engineering

Tunnetusta hyvästä mallista tunnettuun hyvään järjestelmään UCIe IP:llä

EDA-työkalu SW-HW-haavoittuvuuksien havaitsemiseen, joka varmistaa tietojen luottamuksellisuuden RISC-V-arkkitehtuurissa

3 tärkeintä autoteknologian edistystä katsottavaksi

FeFET-monitasoiset solut muistin sisäiseen tietojenkäsittelyyn 28 nm:ssä

III–V laser, joka on kasvatettu kuvioidulla Si-fotoniikkaalustalla valokytkennällä passiivisiin SiN-aaltoputkiin

Tutkimusosat: 24. tammikuuta

Arm Total Compute: Suunnittelu huomisen työkuormille

Indeksipohjainen moniytiminen BDD-paketti, jossa on dynaaminen muistinhallinta ja vähennetty fragmentaatio

Katsaus menetelmiin turvallisten Memristor Computing Systems -järjestelmien suunnitteluun

Alhainen LPDDR4x DRAM -muistin tiheys – paras valinta Edge AI:lle

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili