Wnioskowanie LLM na procesorach graficznych (Intel)

Opublikowane ponownie przez Plato

Obserwuje: 0

Naukowcy z Intel Corporation opublikowali artykuł techniczny zatytułowany „Efficient LLM inference Solution on Intel GPU”.

Abstrakcyjny:

„Modele wielkojęzyczne oparte na transformatorach (LLM) są szeroko stosowane w wielu dziedzinach, a wydajność wnioskowania LLM staje się gorącym tematem w rzeczywistych zastosowaniach. Jednak LLM są zwykle zaprojektowane w skomplikowanej strukturze modelu z masowymi operacjami i wykonują wnioskowanie w trybie autoregresji, co sprawia, że zaprojektowanie systemu o wysokiej wydajności jest trudnym zadaniem.
W tym artykule proponujemy wydajne rozwiązanie wnioskowania LLM o niskim opóźnieniu i dużej przepustowości. Po pierwsze, upraszczamy warstwę dekodera LLM, łącząc ruch danych i operacje na elementach, aby zmniejszyć częstotliwość dostępu do pamięci i mniejsze opóźnienia systemu. Proponujemy również politykę pamięci podręcznej segmentu KV, aby przechowywać klucz/wartość tokenów żądań i odpowiedzi w oddzielnej pamięci fizycznej w celu efektywnego zarządzania pamięcią urządzenia, pomagając zwiększyć rozmiar wsadu środowiska wykonawczego i poprawić przepustowość systemu. Dostosowane jądro Scaled-Dot-Product-Attention zostało zaprojektowane tak, aby pasowało do naszej polityki fuzji opartej na rozwiązaniu pamięci podręcznej segmentu KV. Wdrażamy nasze rozwiązanie wnioskowania LLM na procesorze graficznym Intel i publikujemy je publicznie. W porównaniu ze standardową implementacją HuggingFace proponowane rozwiązanie osiąga do 7 razy mniejsze opóźnienia tokena i 27 razy większą przepustowość w przypadku niektórych popularnych LLM na procesorach graficznych Intel.

Znajdź papier techniczny tutaj. Opublikowano w grudniu 2023 r. (przeddruk).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu i Jinghui Gu. „Wydajne rozwiązanie do wnioskowania LLM na procesorze graficznym Intel”. Przedruk arXiv arXiv:2401.05391 (2023).

Powiązane artykuły
Wnioskowanie LLM na procesorach (Intel)
Naukowcy z firmy Intel opublikowali artykuł techniczny zatytułowany „Efficient LLM Inference on CPUs”.
AI ściga się do krawędzi
W miarę rozprzestrzeniania się sztucznej inteligencji na nowe zastosowania, wnioskowanie i niektóre szkolenia są przenoszone na mniejsze urządzenia.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://semiengineering.com/llm-inference-on-gpus-intel/

Znak czasu: 2 lutego 2024 r.

Znak czasu: Lipiec 5, 2023

Wnioskowanie LLM na procesorach graficznych (Intel)

Opublikowane ponownie przez Plato

Abstrakcyjny:

Więcej z Inżynieria semi

Od znanego dobrego systemu do znanego dobrego systemu z UCIe IP

Narzędzie EDA do wykrywania luk SW-HW zapewniające poufność danych w architekturze RISC-V

3 kluczowe postępy technologii motoryzacyjnej, które warto obejrzeć

Wielopoziomowe ogniwa FeFET do obliczeń w pamięci w procesie 28 nm

Laser III–V wyhodowany na wzorzystej platformie fotonicznej Si ze sprzężeniem światła w pasywne falowody SiN

Bity badawcze: 24 stycznia

Arm Total Compute: inżynieria dla przyszłych obciążeń

Wielordzeniowy pakiet BDD oparty na indeksach z dynamicznym zarządzaniem pamięcią i zmniejszoną fragmentacją

Przegląd metod projektowania bezpiecznych systemów komputerowych memrystorowych

Niska gęstość LPDDR4x DRAM — najlepszy wybór dla Edge AI

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto