GPU에 대한 LLM 추론(Intel) - Plato AiStream V2.1

플라톤에 의해 재발행

팔로워 : 0

Intel Corporation의 연구원들은 "Intel GPU의 효율적인 LLM 추론 솔루션"이라는 기술 논문을 발표했습니다.

요약 :

“Transformer 기반 LLM(Large Language Models)은 다양한 분야에서 널리 사용되고 있으며, LLM 추론의 효율성은 실제 응용 분야에서 화제가 되고 있습니다. 그러나 LLM은 일반적으로 대규모 작업이 포함된 모델 구조로 복잡하게 설계되고 자동 회귀 모드에서 추론을 수행하므로 높은 효율성으로 시스템을 설계하는 것이 어려운 작업입니다.
본 논문에서는 낮은 지연 시간과 높은 처리량을 갖춘 효율적인 LLM 추론 솔루션을 제안합니다. 첫째, 메모리 액세스 빈도를 줄이고 시스템 대기 시간을 낮추기 위해 데이터 이동과 요소별 작업을 융합하여 LLM 디코더 계층을 단순화합니다. 또한 효과적인 장치 메모리 관리를 위해 요청 및 응답 토큰의 키/값을 별도의 물리적 메모리에 유지하여 런타임 배치 크기를 확대하고 시스템 처리량을 향상시키는 세그먼트 KV 캐시 정책을 제안합니다. 맞춤형 Scaled-Dot-Product-Attention 커널은 세그먼트 KV 캐시 솔루션을 기반으로 하는 융합 정책과 일치하도록 설계되었습니다. 우리는 Intel GPU에서 LLM 추론 솔루션을 구현하고 이를 공개적으로 게시합니다. 표준 HuggingFace 구현과 비교하여 제안된 솔루션은 Intel GPU의 일부 인기 있는 LLM에 대해 최대 7배 더 낮은 토큰 대기 시간과 27배 더 높은 처리량을 달성합니다."

찾기 여기에 기술 문서가 있습니다. 2023년 XNUMX월 출판(사전 인쇄).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu 및 Jinghui Gu. “인텔 GPU의 효율적인 LLM 추론 솔루션.” arXiv 사전 인쇄 arXiv:2401.05391 (2023).

관련 독서
CPU에 대한 LLM 추론(인텔)
인텔 연구진은 "CPU에 대한 효율적인 LLM 추론"이라는 기술 논문을 발표했습니다.
AI는 가장자리까지 경주합니다.
AI가 새로운 애플리케이션으로 확산됨에 따라 추론 및 일부 교육이 더 작은 장치로 추진되고 있습니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://semiengineering.com/llm-inference-on-gpus-intel/

타임 스탬프 : 2024년 ２월 2일

타임 스탬프 : 5년 2023월 XNUMX일

GPU에 대한 LLM 추론(인텔)

플라톤에 의해 재발행

요약 :

더보기 세미 엔지니어링

UCIe IP를 사용하여 알려진 양호한 다이에서 알려진 양호한 시스템으로

RISC-V 아키텍처에서 데이터 기밀성을 보장하는 SW-HW 취약점을 탐지하는 EDA 도구

주목해야 할 3가지 주요 자동차 기술 발전

28nm의 인메모리 컴퓨팅을 위한 FeFET 다중 레벨 셀

패시브 SiN 도파관에 빛을 결합하여 패턴화된 Si 포토닉스 플랫폼에서 성장한 III-V 레이저

연구 비트: 24월 XNUMX일

Arm Total Compute: 미래의 워크로드를 위한 엔지니어링

동적 메모리 관리 및 조각화 감소가 포함된 인덱스 기반 멀티 코어 BDD 패키지

보안 Memristor 컴퓨팅 시스템 설계 방법 검토

저밀도 LPDDR4x DRAM — Edge AI를 위한 최선의 선택

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정