LLM Inference On GPUs (Intel) - Plato AiStream V2.1

Republicat de Platon

Urmaritori: 0

O lucrare tehnică intitulată „Soluție eficientă de inferență LLM pe Intel GPU” a fost publicată de cercetătorii de la Intel Corporation.

Rezumat:

„Modelele de limbaj mari (LLM) bazate pe transformatoare au fost utilizate pe scară largă în multe domenii, iar eficiența inferenței LLM devine subiect fierbinte în aplicațiile reale. Cu toate acestea, LLM-urile sunt de obicei proiectate complicat în structura modelului cu operații masive și efectuează inferențe în modul auto-regresiv, ceea ce face o sarcină dificilă proiectarea unui sistem cu eficiență ridicată.
În această lucrare, propunem o soluție eficientă de inferență LLM cu latență scăzută și debit mare. În primul rând, simplificăm stratul de decodor LLM prin fuzionarea mișcării datelor și a operațiunilor în funcție de elemente pentru a reduce frecvența de acces la memorie și latența sistemului. De asemenea, propunem o politică de cache KV pe segmente pentru a păstra cheia/valoarea token-urilor de solicitare și răspuns în memorie fizică separată pentru o gestionare eficientă a memoriei dispozitivului, ajutând la mărirea dimensiunii lotului de rulare și la îmbunătățirea debitului sistemului. Un nucleu personalizat Scaled-Dot-Product-Attention este proiectat pentru a se potrivi cu politica noastră de fuziune bazată pe soluția de cache KV de segment. Implementăm soluția noastră de inferență LLM pe Intel GPU și o publicăm public. În comparație cu implementarea standard HuggingFace, soluția propusă realizează o latență a jetonului de până la 7 ori mai mică și un randament de 27 ori mai mare pentru unele LLM-uri populare pe Intel GPU.”

Găsi lucrare tehnică aici. Publicat în decembrie 2023 (preprint).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu și Jinghui Gu. „Soluție de inferență LLM eficientă pe GPU Intel.” arXiv preprint arXiv:2401.05391 (2023).

Citire asemănătoare
Inferență LLM asupra procesoarelor (Intel)
O lucrare tehnică intitulată „Efficient LLM Inference on CPUs” a fost publicată de cercetătorii de la Intel.
AI Ras To the Edge
Inferențele și unele antrenamente sunt transferate pe dispozitive mai mici, pe măsură ce AI se răspândește la noi aplicații.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://semiengineering.com/llm-inference-on-gpus-intel/

Timestamp-ul: 2 Februarie 2024

Timestamp-ul: Iulie 5, 2023

Inferență LLM pe GPU-uri (Intel)

Republicat de Platon

Rezumat:

Mai mult de la Semi Inginerie

De la un sistem bun cunoscut la un sistem bun cunoscut cu IP UCIe

Instrument EDA pentru a detecta vulnerabilitățile SW-HW, asigurând confidențialitatea datelor într-o arhitectură RISC-V

3 progrese cheie ale tehnologiei auto de urmărit

Celule FeFET cu mai multe niveluri pentru calcul în memorie în 28nm

Laser III–V crescut pe o platformă fotonică Si modelată cu cuplarea luminii în ghiduri de undă SiN pasive

Biți de cercetare: 24 ianuarie

Arm Total Compute: Inginerie pentru sarcinile de lucru de mâine

Pachet BDD multi-core bazat pe index cu management dinamic al memoriei și fragmentare redusă

Revizuirea metodelor de proiectare a sistemelor de calcul Secure Memristor

Densitate scăzută a DRAM LPDDR4x — Cea mai bună alegere pentru Edge AI

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont