IBM 表示自 XNUMX 月以来一直在运行“AI 超级计算机”,但现在选择告诉全世界

IBM 表示自 XNUMX 月以来一直在运行“AI 超级计算机”,但现在选择告诉全世界

源节点: 1950471

IBM 是最新一家推出自己的“AI 超级计算机”的科技巨头,这台计算机由在 IBM Cloud 中运行的一堆虚拟机组成。

该公司声称自去年 XNUMX 月以来一直在线的名为 Vela 的系统被吹捧为 IBM 的第一台 AI 优化的云原生超级计算机,旨在开发和训练大规模 AI 模型。

在任何人匆忙注册访问之前,IBM 表示该平台目前保留供 IBM Research 社区使用。 事实上,自 2022 年 XNUMX 月以来,Vela 已成为公司研究人员创建高级 AI 功能的“首选环境”,包括基础模型方面的工作。

IBM 表示,之所以选择这种架构,是因为它为公司提供了更大的灵活性,可以根据需要进行扩展,并且能够将类似的基础架构部署到全球任何 IBM Cloud 数据中心。

但 Vela 并未在任何旧的标准 IBM Cloud 节点硬件上运行; 每个都是双路系统,配备第二代 Xeon 可扩展处理器,配置 2TB DRAM 和四个 1.5TB NVMe 闪存驱动器,外加八个 3.2GB Nvidia A80 GPU,后者通过 NVLink 和 NVSwitch 连接。

这使得 Vela 基础设施比典型的云基础设施更接近高性能计算 (HPC) 站点,尽管 IBM 坚持认为它走的是不同的道路,因为“传统的超级计算机不是为 AI 设计的”。

同样值得注意的是,IBM 选择使用 x86 处理器而不是自己的 Power 10 芯片,尤其是因为这些是 被蓝色巨人吹捧 非常适合内存密集型工作负载,例如大型模型 AI 推理。

节点使用多个 100Gbps 网络接口互连,这些接口排列在两级 Clos 结构中,该结构旨在为数据提供多条路径以提供冗余。

然而,IBM 在一篇博文中解释了其选择云原生架构的原因,其核心是尽可能减少构建和部署大规模 AI 模型所需的时间。

“我们是在本地构建我们的系统,使用传统的超级计算模型,还是将这个系统构建到云中,本质上是构建一个也是云的超级计算机?” 博客问。

IBM 声称,通过采用后一种方法,它在性能上有所妥协,但在生产率方面获得了显着提升。 这归结为能够通过软件配置所有必要的资源,以及访问更广泛的 IBM Cloud 上可用的服务,例如将数据集加载到 IBM 的 Cloud Object Store,而不必构建专用的存储基础架构。

蓝色巨人还表示,它选择将 Vela 中的所有节点作为虚拟机而不是裸机实例运行,因为这使得使用不同人工智能用户所需的不同软件堆栈来配置和重新配置基础设施变得更加简单。

“VM 将使我们的支持团队能够轻松地动态地灵活扩展 AI 集群,并在几分钟内在各种工作负载之间转移资源,”IBM 的博客解释道。

但该公司声称它找到了一种优化性能并将虚拟化开销降至不到 5% 的方法,接近裸机性能。

这包括为虚拟化配置裸机主机,支持虚拟机扩展 (VMX)、单根 IO 虚拟化 (SR-IOV) 和大页面,以及其他未指定的硬件和软件配置。

有关 Vela 基础设施的更多详细信息,请访问 IBM 的博客.

IBM 并不是唯一一家使用云来托管 AI 超级计算机的公司。 去年,微软 推出了自己的平台 使用 Azure 基础架构与 Nvidia 的 GPU 加速器、网络套件及其 AI Enterprise 软件套件相结合。 这预计可供 Azure 客户访问,但未指定时间范围。

其他一直在构建 AI 超级计算机但遵循传统本地基础设施路线的公司包括 特斯拉。 ®

时间戳记:

更多来自 注册