GPU 上的 LLM 推理（英特尔）- Plato AiStream V2.1

由柏拉图重新发布

关注： 0

英特尔公司的研究人员发表了一篇题为“Intel GPU 上的高效 LLM 推理解决方案”的技术论文。

摘要：

“基于 Transformer 的大型语言模型（LLM）已在许多领域得到广泛应用，LLM 推理的效率成为实际应用中的热门话题。然而，LLM通常模型结构设计复杂，运算量大，并以自回归模式进行推理，这使得设计高效的系统成为一项艰巨的任务。
在本文中，我们提出了一种具有低延迟和高吞吐量的高效 LLM 推理解决方案。首先，我们通过融合数据移动和逐元素操作来简化LLM解码器层，以减少内存访问频率并降低系统延迟。我们还提出了分段 KV 缓存策略，将请求和响应令牌的键/值保存在单独的物理内存中，以实现有效的设备内存管理，有助于扩大运行时批量大小并提高系统吞吐量。定制的 Scaled-Dot-Product-Attention 内核旨在匹配我们基于分段 KV 缓存解决方案的融合策略。我们在 Intel GPU 上实现了 LLM 推理解决方案并公开发布。与标准 HuggingFace 实现相比，所提出的解决方案在 Intel GPU 上的一些流行的 LLM 上实现了高达 7 倍的令牌延迟降低和 27 倍的吞吐量提高。”

找出技术论文在这里。 2023 年 XNUMX 月出版（预印本）。

吴、辉、甘毅、冯远、马晶、朱伟、徐玉涛、朱红、朱玉华、刘晓丽和谷景辉。 “基于 Intel GPU 的高效 LLM 推理解决方案。” arXiv 预印本 arXiv:2401.05391 (2023)。

相关阅读
LLM CPU 推理（英特尔）
英特尔研究人员发表了一篇题为“Efficient LLM Inference on CPUs”的技术论文。
人工智能竞赛到边缘
随着人工智能扩展到新的应用程序，推理和一些训练正在被推向更小的设备。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://semiengineering.com/llm-inference-on-gpus-intel/

时间戳记： 2024 年 2 月 2 日

时间戳记： 2023 年 7 月 5 日

GPU 上的 LLM 推理（英特尔）

由柏拉图重新发布

摘要：

更多来自半工程

使用 UCIe IP 从已知良好的裸片到已知良好的系统

用于检测软件-硬件漏洞的 EDA 工具，确保 RISC-V 架构中的数据机密性

值得关注的 3 项关键汽车技术进步

用于 28 纳米内存计算的 FeFET 多层单元

在图案化硅光子平台上生长的 III-V 族激光器，光耦合到无源 SiN 波导中

研究位：24 月 XNUMX 日

Arm 全面计算：面向未来工作负载的工程

具有动态内存管理和减少碎片的基于索引的多核 BDD 包

回顾设计安全忆阻器计算系统的方法

低密度LPDDR4x DRAM——边缘AI的最佳选择

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

摘要：

更多来自 半工程