GPU에 대한 LLM 추론(인텔)

GPU에 대한 LLM 추론(인텔)

소스 노드 : 3095494

Intel Corporation의 연구원들은 "Intel GPU의 효율적인 LLM 추론 솔루션"이라는 기술 논문을 발표했습니다.

요약 :

“Transformer 기반 LLM(Large Language Models)은 다양한 분야에서 널리 사용되고 있으며, LLM 추론의 효율성은 실제 응용 분야에서 화제가 되고 있습니다. 그러나 LLM은 일반적으로 대규모 작업이 포함된 모델 구조로 복잡하게 설계되고 자동 회귀 모드에서 추론을 수행하므로 높은 효율성으로 시스템을 설계하는 것이 어려운 작업입니다.
본 논문에서는 낮은 지연 시간과 높은 처리량을 갖춘 효율적인 LLM 추론 솔루션을 제안합니다. 첫째, 메모리 액세스 빈도를 줄이고 시스템 대기 시간을 낮추기 위해 데이터 이동과 요소별 작업을 융합하여 LLM 디코더 계층을 단순화합니다. 또한 효과적인 장치 메모리 관리를 위해 요청 및 응답 토큰의 키/값을 별도의 물리적 메모리에 유지하여 런타임 배치 크기를 확대하고 시스템 처리량을 향상시키는 세그먼트 KV 캐시 정책을 제안합니다. 맞춤형 Scaled-Dot-Product-Attention 커널은 세그먼트 KV 캐시 솔루션을 기반으로 하는 융합 정책과 일치하도록 설계되었습니다. 우리는 Intel GPU에서 LLM 추론 솔루션을 구현하고 이를 공개적으로 게시합니다. 표준 HuggingFace 구현과 비교하여 제안된 솔루션은 Intel GPU의 일부 인기 있는 LLM에 대해 최대 7배 더 낮은 토큰 대기 시간과 27배 더 높은 처리량을 달성합니다."

찾기 여기에 기술 문서가 있습니다. 2023년 XNUMX월 출판(사전 인쇄).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu 및 Jinghui Gu. “인텔 GPU의 효율적인 LLM 추론 솔루션.” arXiv 사전 인쇄 arXiv:2401.05391 (2023).

관련 독서
CPU에 대한 LLM 추론(인텔)
인텔 연구진은 "CPU에 대한 효율적인 LLM 추론"이라는 기술 논문을 발표했습니다.
AI는 가장자리까지 경주합니다.
AI가 새로운 애플리케이션으로 확산됨에 따라 추론 및 일부 교육이 더 작은 장치로 추진되고 있습니다.

타임 스탬프 :

더보기 세미 엔지니어링