首席执行官访谈:Lemurian Labs 的 Jay Dawani - Semiwiki

首席执行官访谈:Lemurian Labs 的 Jay Dawani – Semiwiki

源节点: 3095502

杰伊·勒穆里安

杰·达瓦尼 是联合创始人兼首席执行官 勒穆里亚实验室,一家初创公司,开发专为人工智能应用量身定制的加速计算平台。该平台突破了硬件障碍,使人工智能开发更快、更便宜、更可持续,并且不仅仅限于少数公司。

在创立 Lemurian 之前,Jay 在人工智能领域创办了另外两家公司。他也是最受好评的《深度学习数学设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“

Jay 是人工智能、机器人和数学方面的专家,曾担任 BlocPlay(一家构建基于区块链的游戏平台的上市公司)的首席技术官,并担任 GEC 的人工智能总监,领导了多个涵盖领域的客户项目的开发从零售、算法交易、蛋白质折叠、太空探索机器人、推荐系统等等。在业余时间,他还担任 NASA Frontier Development Lab、Spacebit 和 SiaClassic 的顾问。

上次我们介绍 Lemurian Labs 时,您关注的是机器人技术和边缘人工智能。现在您专注于数据中心和云基础设施。发生了什么事情让你想要转型?

事实上,我们确实从专注于为自主机器人应用构建高性能、低延迟、可以加速整个感知-计划-行动循环的片上系统,转变为专注于数据中心规模应用的人工智能领域特定加速器。但这不仅仅是一个普通的枢轴;它是一个普通的枢轴。这是我们认为我们有责任回应的号角。

2018 年,我们正致力于训练一个价值 2.1 亿美元的参数模型,但我们放弃了这项工作,因为成本非常高,我们无法证明其合理性。因此,想象一下我对 GPT3(OpenAI 于 2022 年 175 月以 ChatGPT 的名义发布)是一个价值 80 亿美元的参数模型感到惊讶。这个模型比我们 4 年前所做的模型大 XNUMX 倍以上,这既令人兴奋又令人恐惧。

至少可以说,训练这样一个模型的成本是惊人的。根据当前的扩展趋势,我们预计在不久的将来训练前沿人工智能模型的成本将超过 10 亿美元。虽然这些模型的功能令人震惊,但成本却高得离谱。根据这一轨迹,只有少数资源丰富、拥有自己的数据中心的公司才能负担得起训练、部署和微调这些模型的费用。这不仅仅是因为计算成本昂贵且耗电,还因为我们所依赖的软件堆栈不是为这个世界构建的。

由于地理和能源的限制,建设数据中心的地方有限。为了满足人工智能的计算需求,我们需要能够建造 zettascale 机器,而不需要 20 个核反应堆为其提供动力。我们需要一个更实用、可扩展且经济的解决方案。我们环顾四周,没有看到任何人能够解决这个问题。因此,我们从头开始,从整体上将问题视为一个系统系统,并从首要原则出发推理出解决方案。我们问自己,如果我们每天必须经济地服务 10 亿个 LLM 查询,我们将如何设计从软件到硬件的完整堆栈。我们的目标是到 200 年生产出功率低于 2028MW 的 zettascale 机器。

诀窍是从不相称的扩展的角度来看待它——系统的不同部分遵循不同的扩展规则,因此在某些时候事情会停止工作,开始破坏或者成本效益权衡不再有意义。发生这种情况时,唯一的选择就是重新设计系统。我们的评估和解决方案全面涵盖工作负载、数字系统、编程模型、编译器、运行时和硬件。

值得庆幸的是,我们现有的投资者和市场的其他部分看到了我们的愿景,我们筹集了 9 万美元的种子轮来开发我们的数字格式 - PAL,探索设计空间并集中于我们特定领域加速器的架构,并构建我们的编译器和运行时。在模拟中,我们已经能够以比现代 GPU 更小的能耗实现 20 倍的吞吐量增益,并且预计能够在相同晶体管技术的总拥有成本下将系统性能提高 8 倍。

不用说,我们还有很多工作要做,但我们对能够重新定义数据中心经济学以确保未来每个人都能充分利用人工智能的前景感到非常兴奋。

这听起来确实令人兴奋,而且这些数字听起来令人印象深刻。但您提到了数字系统、硬件、编译器和运行时作为您关注的所有内容 - 听起来对于任何公司来说都需要同时承担很多工作。这似乎是一个非常危险的提议。初创企业不应该更加专注吗? 

这听起来确实像是很多不同的努力,但事实上,它是由许多相互关联的部分组成的一项努力。仅解决其中一个组件而孤立其他组件只会阻碍创新潜力,因为它会导致忽视系统效率低下和瓶颈。黄仁勋说得最好,“为了成为一家加速计算公司,你必须成为一家全栈公司”,我完全同意。他们是当前市场的领导者是有原因的。但我会对“我们不专注”的观点提出质疑。我们的重点在于我们如何整体思考问题以及如何最好地为客户解决问题。

做到这一点需要像我们这样的多学科方法。我们工作的每个部分都为其他部分提供信息和支持,使我们能够创建一个远远大于各个部分之和的解决方案。想象一下,如果你必须建造一辆赛车。您不会随意选择底盘、添加赛车轮胎并安装您能找到的最强大的发动机并进行比赛,对吧?您会考虑车身的空气动力学特性,以减少阻力并增强下压力,优化重量分布以实现良好的操控性,定制设计发动机以实现最佳性能,配备冷却系统以防止过热,指定防滚架以确保驾驶员安全等等。这些元素中的每一个都建立在另一个元素的基础上并相互影响。

也就是说,对于任何行业的任何公司来说,尝试一次性完成所有这些工作都是有风险的。为了管理风险,我们采取分阶段的方法,使我们能够与客户验证我们的技术并根据需要调整我们的策略。我们已经证明我们的数字格式有效,并且它比等效的浮点类型具有更好的功耗性能区域,同时还具有更好的数字属性,这使得更容易将神经网络量化为更小的位宽度。我们设计了一个我们有信心的架构,它既适合训练又适合推理。但比这一切更重要的是让软件正确运行,这是我们当前关注的重点。我们需要确保在我们的软件堆栈中做出正确的决策,以应对从今天起一两年或更长时间的世界。

建立一家硬件公司是艰难、昂贵且需要很长时间的。首先对软件的关注本身听起来像是一项非常可行的业务,并且在当前环境下可能对投资者更具吸引力。鉴于该领域有如此多资金雄厚的公司正在关门,努力获得客户的采用,而更大的公司正在构建自己的硬件,为什么你还要做硬件呢?

你说得对,软件企业通常比硬件公司更容易筹集资金,而且硬件非常困难。我们目前的重点主要集中在软件上,因为这是我们看到更大问题的地方。让我明确一点,问题不在于我能否让内核以高性能运行在 CPU 或 GPU 上;而在于我能否让内核以高性能运行在 CPU 或 GPU 上。这是一个长期解决的问题。今天的问题是,我们如何让开发人员更轻松地从由异构计算组成的数千个节点集群中高效地获得更高的性能,而不要求他们彻底改变工作流程。

这就是我们目前专注于通过软件堆栈来解决的问题,该软件堆栈为开发人员提供超能力并解锁仓库规模计算机的全部功能,以便我们可以更经济地训练和部署人工智能模型。

现在,在投资方面,是的,风险投资公司对他们所支持的公司类型更加挑剔,但这也意味着风险投资公司正在寻找有潜力提供真正突破性产品的公司,这些产品具有明确的商业化路径,同时具有重大影响力。我们从其他人的挑战和错误中吸取了教训,并积极设计了我们的商业模式和路线图来应对风险。同样重要的是要注意,初创公司的成功很少取决于他们如何轻松地筹集风险投资资金,而更多地与他们的足智多谋、固执和以客户为中心有关。

在你问之前,我们仍在开发硬件,但目前主要是在模拟方面。我们暂时不打算停播。但我们可以把这次谈话留到下次再说。

这当然很引人注目,而且与我们看到的其他硬件公司的做法相比,你们的分阶段方法非常不同。我理解您所说的软件堆栈将解决的问题,但是您的软件如何与市场上的各种产品区分开来?

您提到的大多数公司都专注于通过引入基于图块或任务映射的编程模型来更轻松地对 GPU 进行编程,以提高 GPU 的性能,或者构建新的编程语言以在不同的平台上调度高性能内核。支持在线组装的平台。这些是他们正在解决的重要问题,但我们认为我们正在解决的问题几乎是正交的。

让我们考虑一下硬件和软件转换的节奏。单核架构通过时钟速度和晶体管密度获得了性能,但最终时钟速度达到了稳定水平。使用多个核心的并行性避免了这一点,并提供了相当大的加速。软件大约花了十年时间才迎头赶上,因为必须重新考虑编程模型、编译器和运行时,以帮助开发人员提取这种范式的价值。然后,GPU 开始成为通用加速器,同样具有不同的编程模型。同样,开发商花了近十年的时间才在这里获取价值。

硬件再次陷入停滞状态——摩尔定律、能源和热限制、内存瓶颈、工作负载的多样性以及对计算量呈指数级增长的需求正在推动我们构建日益异构的计算机架构,以实现更好的性能、效率和总成本。硬件的这种转变当然会给软件带来挑战,因为我们没有合适的编译器和运行时来支持计算的下一次发展。但这一次,我们不应该再等 10 年,软件才能挖掘异构架构或大型集群的价值,尤其是当它们的利用率超过 80% 时。

我们关注的是构建具有基于任务并行性的异构感知编程模型,通过跨处理器优化、上下文感知编译和动态资源分配来解决可移植性能问题。对于我们来说,它是 CPU、GPU、TPU、SPU(Lemurian 架构)还是它们的网格并不重要。我知道这听起来像是很多花哨的词,但它真正的意思是,我们已经使使用单一方法对任何类型的处理器进行编程成为可能,并且我们可以以最少的成本将代码从一种处理器移植到另一种处理器。无需牺牲性能,即可在节点之间自适应、动态地安排工作。

全幻灯片 LL 空间处理单元架构 (1)

如果你说的是真的,你可能会完全重新定义计算。我们来谈谈资金问题。您去年筹集了 9 万美元的种子资金,这表明投资者对您的愿景给予了强有力的支持和信任。从那以后你做了什么?

过去一年,在种子资金的推动下,我们取得了重大进展。我们的团队目前有 20 名成员,我们精心应对挑战,与客户互动并完善我们的方法。

我们专注于增强 PAL 的训练和推理能力,探索加速器的计算机架构,并开发了性能指标模拟器。同时,我们重新构想了数据中心应用程序的软件堆栈,强调异构计算。

这项工作产生了一个定义明确的架构,展示了 PAL 在大规模人工智能方面的功效。除了技术进步之外,我们还寻求合作和推广,以实现访问民主化。这些努力使 Lemurian Labs 能够解决眼前的客户挑战,为我们生产芯片的发布做好准备。

Lemurian Labs 在软件堆栈开发、合作和加速器架构改进方面的中期计划是什么?

我们的近期目标是创建一个针对 CPU、GPU 和具有便携式性能的 AI 加速器的软件堆栈,并将于今年年底向早期合作伙伴提供。我们目前正在与大多数领先的半导体公司、云服务提供商、超大规模企业和人工智能公司进行对话,让他们能够访问我们的编译器和运行时。与此同时,我们继续致力于并改进我们的加速器架构,以实现真正的硬件和软件协同设计系统。当然,我们刚刚开始筹集 A 轮融资,投资者对此表现出了浓厚的兴趣,这将使我们能够扩大团队规模并实现年底软件产品交付的目标。

最后,您如何看待 Lemurian Labs 在未来几年为改变人工智能开发、可访问性和公平性的格局做出的贡献?

我们重新定义计算并不是为了商业利益或乐趣。作为利穆里亚人,我们的驱动力是我们相信人工智能的变革潜力,并且不仅仅是少数公司应该拥有资源来定义这项技术的未来以及我们如何使用它。我们也认为,到 20 年,人工智能的数据中心基础设施将消耗全球 2030% 的能源,这是令人无法接受的。我们聚集在一起,因为我们相信,如果我们能够通过大幅降低相关成本,加快人工智能创新步伐并扩大其影响,让人工智能变得更容易获得。通过解决当前硬件基础设施的挑战,我们寻求为十亿人赋予人工智能能力铺平道路,确保这一先进技术的公平分配。我们希望我们对以产品为中心的解决方案、协作和持续创新的承诺使我们成为塑造人工智能发展积极未来的驱动力。

另请参阅:

通过以下方式分享此帖子:

时间戳记:

更多来自 半维基