LLM-päätelmä GPU:ista (Intel)

LLM-päätelmä GPU:ista (Intel)

Lähdesolmu: 3095494

Intel Corporationin tutkijat julkaisivat teknisen paperin nimeltä "Tehokas LLM-johtopäätösratkaisu Intel GPU:lla".

Tiivistelmä:

"Transformer-pohjaisia ​​suuria kielimalleja (LLM) on käytetty laajasti monilla aloilla, ja LLM-päättelyn tehokkuudesta tulee kuuma puheenaihe todellisissa sovelluksissa. LLM:t on kuitenkin yleensä monimutkaisesti suunniteltu mallirakenteessa, jossa on valtavia operaatioita, ja ne tekevät päätelmiä autoregressiivisessä tilassa, mikä tekee järjestelmän suunnittelusta erittäin tehokkaan haastavan.
Tässä artikkelissa ehdotamme tehokasta LLM-päätelmäratkaisua alhaisella latenssilla ja suurella suorituskyvyllä. Ensinnäkin yksinkertaistamme LLM-dekooderikerrosta yhdistämällä tiedonsiirron ja elementtikohtaiset toiminnot muistin käyttötaajuuden ja järjestelmän latenssin pienentämiseksi. Ehdotamme myös segmentin KV-välimuistikäytäntöä, joka pitää pyyntö- ja vastaustunnisteiden avaimen/arvon erillisessä fyysisessä muistissa tehokkaan laitteen muistin hallinnan varmistamiseksi, mikä auttaa suurentamaan ajonaikaista eräkokoa ja parantamaan järjestelmän suorituskykyä. Mukautettu Scaled-Dot-Product-Attention-ydin on suunniteltu vastaamaan fuusiokäytäntöämme, joka perustuu segmentin KV-välimuistiratkaisuun. Toteutamme LLM-johtopäätösratkaisumme Intel GPU:ssa ja julkaisemme sen julkisesti. Tavalliseen HuggingFace-toteutukseen verrattuna ehdotettu ratkaisu saavuttaa jopa 7x pienemmän tunnuksen latenssin ja 27x suuremman suorituskyvyn joillakin suosituilla LLM:illä Intelin GPU:ssa."

Etsi tekninen paperi täällä. Julkaistu joulukuussa 2023 (esipainos).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu ja Jinghui Gu. "Tehokas LLM-johtopäätösratkaisu Intelin GPU:lla." arXiv preprint arXiv:2401.05391 (2023).

Aiheeseen liittyvä lukeminen
LLM-päätelmä suorittimista (Intel)
Intelin tutkijat julkaisivat teknisen paperin nimeltä "Efficient LLM Inference on CPUs".
AI Races To The Edge
Päätelmiä ja koulutusta siirretään pienempiin laitteisiin, kun tekoäly leviää uusiin sovelluksiin.

Aikaleima:

Lisää aiheesta Semi Engineering