Wnioskowanie LLM na procesorach graficznych (Intel)

Wnioskowanie LLM na procesorach graficznych (Intel)

Węzeł źródłowy: 3095494

Naukowcy z Intel Corporation opublikowali artykuł techniczny zatytułowany „Efficient LLM inference Solution on Intel GPU”.

Abstrakcyjny:

„Modele wielkojęzyczne oparte na transformatorach (LLM) są szeroko stosowane w wielu dziedzinach, a wydajność wnioskowania LLM staje się gorącym tematem w rzeczywistych zastosowaniach. Jednak LLM są zwykle zaprojektowane w skomplikowanej strukturze modelu z masowymi operacjami i wykonują wnioskowanie w trybie autoregresji, co sprawia, że ​​zaprojektowanie systemu o wysokiej wydajności jest trudnym zadaniem.
W tym artykule proponujemy wydajne rozwiązanie wnioskowania LLM o niskim opóźnieniu i dużej przepustowości. Po pierwsze, upraszczamy warstwę dekodera LLM, łącząc ruch danych i operacje na elementach, aby zmniejszyć częstotliwość dostępu do pamięci i mniejsze opóźnienia systemu. Proponujemy również politykę pamięci podręcznej segmentu KV, aby przechowywać klucz/wartość tokenów żądań i odpowiedzi w oddzielnej pamięci fizycznej w celu efektywnego zarządzania pamięcią urządzenia, pomagając zwiększyć rozmiar wsadu środowiska wykonawczego i poprawić przepustowość systemu. Dostosowane jądro Scaled-Dot-Product-Attention zostało zaprojektowane tak, aby pasowało do naszej polityki fuzji opartej na rozwiązaniu pamięci podręcznej segmentu KV. Wdrażamy nasze rozwiązanie wnioskowania LLM na procesorze graficznym Intel i publikujemy je publicznie. W porównaniu ze standardową implementacją HuggingFace proponowane rozwiązanie osiąga do 7 razy mniejsze opóźnienia tokena i 27 razy większą przepustowość w przypadku niektórych popularnych LLM na procesorach graficznych Intel.

Znajdź papier techniczny tutaj. Opublikowano w grudniu 2023 r. (przeddruk).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu i Jinghui Gu. „Wydajne rozwiązanie do wnioskowania LLM na procesorze graficznym Intel”. Przedruk arXiv arXiv:2401.05391 (2023).

Powiązane artykuły
Wnioskowanie LLM na procesorach (Intel)
Naukowcy z firmy Intel opublikowali artykuł techniczny zatytułowany „Efficient LLM Inference on CPUs”.
AI ściga się do krawędzi
W miarę rozprzestrzeniania się sztucznej inteligencji na nowe zastosowania, wnioskowanie i niektóre szkolenia są przenoszone na mniejsze urządzenia.

Znak czasu:

Więcej z Inżynieria semi