Synopsys 小组关于多芯片系统状态的更新 - Semiwiki

Synopsys 小组关于多芯片系统状态的更新 – Semiwiki

源节点: 2931383

Synopsys 最近举办了一个关于多芯片系统状态的跨行业小组讨论,我发现该小组很有趣,尤其是它与以人工智能为中心的硬件快速加速的相关性。 下面详细介绍一下。 小组成员均在多芯片系统中担任重要职务,包括 Shekhar Kapoor(Synopsys 产品管理高级总监)、Cheolmin Park(三星公司副总裁)、Lalitha Immaneni(英特尔架构、设计和技术解决方案副总裁)、Michael Schaffert (博世高级副总裁)和 Murat Becer(Ansys 研发副总裁)。 该小组由 Marco Chiappetta(HotTech Vision and Analysis 联合创始人兼首席分析师)主持。

多芯片 525x315 光

巨大的需求驱动力

在这个标题下推出所有常见的嫌疑人(HPC、汽车等)是很常见的,但这份清单的卖空可能是最大的潜在因素——目前法学硕士和生成人工智能领域争夺主导地位的争夺。 大型语言模型在搜索、文档创建和其他功能方面提供了新水平的 SaaS 服务,无论谁首先掌握了这一点,都将获得重大竞争优势。 相比之下,在移动设备和汽车上,基于自然语言的卓越控制和反馈将使现有的基于语音的选项显得很原始。 同时,使用扩散和泊松流模型创建新图像的生成方法可以在文本或照片上绘制出壮观的图形,并辅以图像库。 作为对消费者的吸引力,这可能会成为未来手机发布的下一个重大事件。

虽然基于 Transformer 的人工智能带来了巨大的机遇,但也带来了挑战。 使此类方法成为可能的技术已经在云端得到了验证,并在边缘出现,但众所周知,它们对内存的需求很大。 生产 LLM 运行数十亿到数万亿个必须加载到变压器的参数。 对进程内工作空间的需求同样很高; 基于扩散的成像逐渐向完整图像添加噪声,然后再次通过基于变压器的平台返回到修改后的图像。

除了初始负载之外,这些进程都无法承担与外部 DRAM 交互的开销。 延迟是不可接受的,电力需求会耗尽手机电池或超出数据中心的电力预算。 所有内存都需要靠近——非常靠近——计算。 一种解决方案是将 SRAM 堆叠在加速器之上(正如 AMD 和现在的英特尔在其服务器芯片中所展示的那样)。 封装内高带宽内存增加了另一种速度稍慢的选项,但仍然不如片外 DRAM 慢。

所有这些都需要多芯片系统。 那么,我们在使该选项投入生产方面处于什么阶段呢?

对我们所处位置的看法

我听到人们对这个领域的采用、应用程序和工具的发展充满热情。 英特尔、AMD、高通、三星显然在这一领域都非常活跃。 众所周知,Apple M2 Ultra 采用双芯片设计,而 AWS Graviton 3 则采用多芯片系统。 我确信在大型系统和半导体公司中还有很多其他例子。 我的印象是芯片仍然主要是内部采购(HBM 堆栈除外),并采用台积电、三星或英特尔的代工封装技术进行组装。 然而,Tenstorrent 刚刚宣布他们选择三星来制造其下一代 AI 设计作为小芯片(适合在多芯片系统中使用的芯片),因此这个领域已经在向更广泛的芯片采购迈进。

所有小组成员自然都对总体方向充满热情,显然技术和工具正在快速发展,这也是引起轰动的原因。 Lalitha 指出,目前构建和设计多芯片系统的方式仍处于起步阶段,尚未准备好启动广泛的可重复使用芯片市场,从而奠定了这种热情。 这并不令我惊讶。 这种复杂的技术似乎应该首先在系统设计师、代工厂和 EDA 公司之间的紧密合作中成熟,也许需要几年时间才能扩展到更多受众。

我确信代工厂、系统构建商和 EDA 公司并没有亮出他们所有的底牌,而且可能比他们选择做广告的要走得更远。 我期待听到更多。 您可以观看小组讨论 点击这里.

通过以下方式分享此帖子:

时间戳记:

更多来自 半维基