可行的 L4/L5 自动驾驶和边缘生成式 AI 推理的长期障碍 - Semiwiki

可行的 L4/L5 自动驾驶和边缘生成式人工智能推理的长期障碍 – Semiwiki

源节点: 2934975

最近两种基于软件的算法技术——自动驾驶 (ADAS/AD) 和生成式人工智能 (GenAI)——让半导体工程界夜不能寐。

虽然2级和3级的ADAS已步入正轨,但4级和5级的AD与现实相去甚远,导致风险投资热情和资金下降。如今,GenAI 受到关注,风投们纷纷投资数十亿美元。

这两种技术都基于现代复杂的算法。他们的训练和推理的处理有一些共同的属性,一些是关键的,另一些是重要但不是必需的:见表一。

边缘生成式人工智能推理
表 I 标题:算法训练和推理共享一些但不是全部关键属性。来源:VSORA

迄今为止,这些技术中显着的软件进步尚未被算法硬件的进步所复制,以加速其执行。例如,最先进的算法处理器不具备在每次查询成本为 4 欧元(Google 搜索建立的基准)的情况下在一两秒内回答 ChatGPT-2 查询的性能,也无法处理海量数据AD 传感器在不到 20 毫秒的时间内收集到数据。

直到法国初创公司 VSORA 投入人力来解决被称为内存墙的内存瓶颈。

记忆墙

CPU 的内存墙由 Wulf 和 McKee 于 1994 年首次描述。从那时起,内存访问就成为计算性能的瓶颈。处理器性能的进步并未反映在内存访问进度上,导致处理器等待内存传送的数据的时间越来越长。最终,处理器效率下降到 100% 以下。

为了解决这个问题,半导体行业创建了一种多级分层内存结构,在靠近处理器的地方有多层高速缓存,可以减少较慢的主内存和外部内存的流量。

AD 和 GenAI 处理器的性能比其他类型的计算设备更依赖于宽内存带宽。

VSORA 成立于 2015 年,面向 5G 应用,发明了一种专利架构,可将分层内存结构折叠成一个可在一个时钟周期内访问的大型高带宽、紧耦合内存 (TCM)。

从处理器内核的角度来看,TCM 的外观和行为就像是大量以 MB 为单位的寄存器,而实际物理寄存器以千字节为单位。在一个周期内访问 TMC 中的任何存储单元的能力可带来高执行速度、低延迟和低功耗。它还需要更少的硅面积。在处理当前数据的同时将新数据从外部存储器加载到 TCM 中不会影响系统吞吐量。基本上,该架构通过其设计允许处理单元的利用率达到 80% 以上。尽管如此,如果系统设计者愿意,仍然可以添加高速缓存和暂存器存储器。参见图 1。

边缘自动驾驶和生成式人工智能推理
图1说明:传统的分层内存结构密集且复杂。 VSORA 的方法是精简且分层的。

通过在所有应用程序的几乎所有存储器中实现类似寄存器的存储器结构,VSORA 存储器方法的优势怎么强调都不为过。通常,尖端的 GenAI 处理器可提供个位数百分比的效率。例如,标称吞吐量为 5 Petaflops 标称性能但效率低于 50% 的 GenAI 处理器可提供低于 10 Teraflops 的可用性能。相反,VSORA 架构的效率提高了 XNUMX 倍以上。

VSORA 的算法加速器

VSORA 推出了两类算法加速器——用于 AD 应用的 Tyr 系列和用于 GenAI 加速的 Jotunn 系列。两者都在较小的硅占用空间中提供出色的吞吐量、最小的延迟和低功耗。

它们的标称性能高达 50 Petaflops,无论算法类型如何,典型实现效率均为 80-30%,峰值功耗为 XNUMX 瓦/Petaflops。这些都是出色的属性,尚未被任何竞争性人工智能加速器报道过。

Tyr 和 Jotunn 是完全可编程的,并集成了 AI 和 DSP 功能(尽管数量不同),并支持从 8 位到 64 位整数或浮点的即时算术选择。它们的可编程性适应了多种算法,使它们与算法无关。还支持几种不同类型的稀疏性。

VSORA 处理器的特性使它们处于竞争算法处理领域的最前沿。

VSORA 支持软件

VSORA 专门针对其硬件架构设计了独特的编译/验证平台,以确保其复杂的高性能 SoC 器件拥有充足的软件支持。

为了让算法设计师进入驾驶舱,一系列分层验证/验证级别(ESL、混合、RTL 和门)向算法工程师提供按钮反馈,以响应设计空间探索。这有助于他或她在性能、延迟、功耗和面积之间选择最佳折衷方案。以高级抽象编写的编程代码可以对用户透明地映射到不同的处理核心。

内核之间的接口可以在同一芯片内、同一 PCB 上的芯片之间或通过 IP 连接来实现。内核之间的同步在编译时自动管理,不需要实时软件操作。

L4/L5 自动驾驶和边缘生成式 AI 推理的障碍

成功的解决方案还应包括现场可编程性。在新思想的推动下,算法迅速发展,而昨天的最先进技术在一夜之间就被淘汰了。现场升级算法的能力是一个值得注意的优势。

虽然超大规模公司一直在组装拥有大量最高性能处理器的大型计算场来处理高级软件算法,但该方法仅适用于训练,不适用于边缘推理。

训练通常基于生成大量数据的 32 位或 64 位浮点算法。它不会施加严格的延迟,并且可以承受高功耗和大量成本。

边缘推理通常在 8 位浮点算术上执行,该算术生成的数据量稍少,但要求不妥协的延迟、低能耗和低成本。

能源消耗对延迟和效率的影响

CMOS IC 中的功耗主要由数据移动而非数据处理决定。

斯坦福大学马克·霍洛维茨教授领导的一项研究表明,内存访问的功耗比基本数字逻辑计算消耗的能量多几个数量级。见表二。

边缘自动驾驶和生成式人工智能推理
表 II 说明:加法器和乘法器从使用整数运算时的不到 20 皮焦消耗到处理浮点运算时的几皮焦。当访问 DRAM 中的数据时,访问高速缓存中的数据所花费的能量会跃升一个数量级,达到 100-1,000 PicoJoule,并且会跃升三个数量级,达到超过 XNUMX PicoJoule。资料来源:斯坦福大学。

AD 和 GenAI 加速器是以数据移动为主的设备的主要示例,对控制功耗构成了挑战。

结论

AD 和 GenAI 推理对成功实施提出了不小的挑战。 VSORA 可以提供全面的硬件解决方案和支持软件,以满足以商业上可行的成本处理 AD L4/L5 和 GenAI(如 GPT-4 加速)的所有关键要求。

有关 VSORA 及其 Tyr 和 Jotunn 的更多详细信息,请访问 www.vsora.com.

关于劳罗·里扎蒂

劳罗·里扎蒂 (Lauro Rizzatti) 是以下公司的商业顾问 维索拉是一家提供硅 IP 解决方案和硅芯片的创新型初创公司,也是一位著名的硬件仿真验证顾问和行业专家。此前,他曾担任管理、产品营销、技术营销和工程职位。

另请参阅:

Soitec 正在设计半导体行业的未来

ISO 21434 用于网络安全感知 SoC 开发

汽车功能安全背景下的预测性维护

通过以下方式分享此帖子:

时间戳记:

更多来自 半维基