谁拥有生成式 AI 平台?

谁拥有生成式 AI 平台?

源节点: 1909271

我们开始看到技术堆栈的早期阶段出现在生成人工智能 (AI) 中。 数以百计的新创业公司正涌入市场,开发基础模型、构建 AI 原生应用程序并建立基础设施/工具。

许多热门技术趋势在市场赶上之前就被过度炒作了。 但是,生成式人工智能的繁荣伴随着真实市场的实际收益,以及来自真实公司的真正吸引力。 Stable Diffusion 和 ChatGPT 等模型正在创造用户增长的历史记录,多个应用程序在推出后不到一年的时间就达到了 100 亿美元的年化收入。 并排比较显示 AI 模型 胜过人类 在某些任务中提高了多个数量级。 

因此,有足够的早期数据表明大规模转型正在发生。 我们不知道的,现在已经成为关键问题的是: 这个市场的价值在哪里?

在过去的一年里,我们在大公司会见了数十位直接与生成 AI 打交道的初创公司创始人和运营商。 我们观察到 基础设施供应商 到目前为止,它们可能是这个市场上最大的赢家,占据了流经堆栈的大部分美元。 应用公司 收入增长非常快,但往往在留存率、产品差异化和毛利率方面苦苦挣扎。 而大多数 模型提供者,虽然负责这个市场的存在,但尚未实现大规模的商业规模。

换句话说,创造最大价值的公司——即训练生成式 AI 模型并将其应用于新应用程序——并没有获得大部分价值。 预测接下来会发生什么要困难得多。 但我们认为要了解的关键是堆栈的哪些部分是真正差异化和可防御的。 这将对市场结构(即横向与纵向公司发展)和长期价值的驱动因素(例如利润率和保留率)产生重大影响。 到目前为止,我们很难找到结构防御 分析数据 在堆栈中,在传统护城河之外。

我们非常看好生成式人工智能,相信它将对软件行业及其他行业产生巨大影响。 这篇文章的目的是描绘出市场动态,并开始回答有关生成式 AI 商业模式的更广泛问题。

高级技术堆栈:基础架构、模型和应用程序

要了解生成式人工智能市场是如何形成的,我们首先需要定义堆栈今天的样子。 这是我们的初步看法。

堆栈可以分为三层:

  • 应用领域 将生成的 AI 模型集成到面向用户的产品中,运行他们自己的模型管道(“端到端应用程序”)或依赖第三方 API
  • 型号 为 AI 产品提供动力,以专有 API 或开源检查点的形式提供(这反过来又需要托管解决方案)
  • 基础设施 为生成 AI 模型运行训练和推理工作负载的供应商(即云平台和硬件制造商)

需要注意的是:这不是市场地图,而是分析市场的框架。 在每个类别中,我们都列出了一些知名供应商的示例。 我们没有尝试全面或列出所有已发布的惊人的生成 AI 应用程序。 我们也不会在这里深入探讨 MLops 或 LLMops 工具,它们尚未高度标准化,将在以后的帖子中解决。

第一波生成式 AI 应用程序开始形成规模,但在留存率和差异化方面举步维艰

在之前的技术周期中,传统观点认为,要建立一家大型独立公司,您必须拥有最终客户——无论是个人消费者还是 B2B 买家。 人们很容易相信生成人工智能领域最大的公司也将成为终端用户应用程序。 到目前为止,还不清楚是不是这样。

可以肯定的是,在纯粹的新颖性和大量用例的推动下,生成式 AI 应用程序的增长一直是惊人的。 事实上,我们知道至少三个产品类别的年收入已经超过 100 亿美元:图像生成、文案撰写和代码编写。

然而,仅靠增长还不足以建立经久不衰的软件公司。 至关重要的是,增长必须是有利可图的——从某种意义上说,用户和客户一旦注册,就会产生利润(高毛利率)并长期坚持(高保留率)。 在缺乏强大技术差异的情况下,B2B 和 B2C 应用程序通过网络效应、保留数据或构建日益复杂的工作流程来推动长期客户价值。

在生成式人工智能中,这些假设不一定成立。 在我们采访过的应用程序公司中,毛利率差异很大——在少数情况下高达 90%,但更常见的是低至 50-60%,这主要是受模型推理成本的驱动。 Top-of-funnel 的增长非常惊人,但目前尚不清楚当前的客户获取策略是否具有可扩展性——我们已经看到付费获取的有效性和保留率开始下降。 许多应用程序也相对没有差异化,因为它们依赖于类似的底层人工智能模型,并且没有发现竞争对手难以复制的明显网络效应或数据/工作流。

因此,销售终端用户应用程序是建立可持续的生成式 AI 业务的唯一甚至最佳途径尚不明显。 随着语言模型的竞争和效率的提高,利润率应该会提高(更多内容见下文)。 随着 AI 游客离开市场,留存率应该会增加。 有一个强有力的论据表明,垂直整合的应用程序在推动差异化方面具有优势。 但是还有很多东西需要证明。

展望未来,生成式 AI 应用程序公司面临的一些重大问题包括:

  • 垂直整合(“模型+应用程序”)。 将 AI 模型作为服务使用,可以让应用程序开发人员与小团队快速迭代,并随着技术进步交换模型提供商。 另一方面,一些开发者认为该产品 is 模型,并且从头开始训练是建立防御能力的唯一途径——即通过不断地对专有产品数据进行再训练。 但这是以更高的资本要求和更不灵活的产品团队为代价的。
  • 构建功能与应用程序。 生成式 AI 产品有多种不同的形式:桌面应用程序、移动应用程序、Figma/Photoshop 插件、Chrome 扩展程序,甚至是 Discord 机器人。 在用户已经工作的地方集成 AI 产品很容易,因为 UI 通常只是一个文本框。 其中哪些将成为独立的公司——哪些将被微软或谷歌等已经将 AI 纳入其产品线的现有企业吸收?
  • 通过炒作周期进行管理。 目前尚不清楚流失是当前批次的生成式 AI 产品固有的,还是早期市场的产物。 或者,随着炒作的消退,对生成式人工智能的兴趣是否会下降。 这些问题对应用程序公司具有重要意义,包括何时加速筹款; 如何积极地投资于客户获取; 优先考虑哪些用户细分; 以及何时宣布产品市场契合度。

模型提供商发明了生成式人工智能,但尚未达到大规模商业规模

如果没有像谷歌、OpenAI 和 Stability 这样的地方所做的出色研究和工程工作,我们现在所说的生成式 AI 就不会存在。 通过新颖的模型架构和扩展训练管道的巨大努力,我们都受益于当前大型语言模型 (LLM) 和图像生成模型令人惊叹的功能。

然而,与使用量和口碑相比,与这些公司相关的收入仍然相对较小。 在图像生成方面,Stable Diffusion 在用户界面、托管产品和微调方法的生态系统的支持下出现了爆炸性的社区增长。 但 Stability 将他们的主要检查站作为他们业务的核心原则免费提供。 在自然语言模型中,OpenAI 以 GPT-3/3.5 和 ChatGPT 占据主导地位。 但 相对 到目前为止,基于 OpenAI 构建的杀手级应用很少,而且价格已经 掉过一次.

这可能只是暂时的现象。 Stability 是一家尚未专注于货币化的新公司。 OpenAI 有潜力成为一项庞大的业务,随着越来越多的杀手级应用程序的出现,它在所有 NLP 类别的收入中占据很大一部分——尤其是如果他们的 集成到 Microsoft 的产品组合中 进展顺利。 鉴于这些模型的大量使用,大规模的收入可能并不遥远。

但也有反作用力。 作为开源发布的模型可以由任何人托管,包括不承担与大规模模型培训相关的费用(高达数千万或数亿美元)的外部公司。 目前尚不清楚是否有任何闭源模型可以无限期地保持其优势。 例如,我们开始看到由 Anthropic、Cohere 和 Character.ai 等公司构建的 LLM 更接近 OpenAI 的性能水平,在类似的数据集(即互联网)上训练并使用类似的模型架构。 稳定扩散的例子表明 if 开源模型达到足够的性能水平和社区支持,那么专有替代品可能会发现难以竞争。

到目前为止,对于模型提供商来说,最明显的收获可能是商业化可能与托管有关。 对专有 API(例如来自 OpenAI)的需求正在迅速增长。 开源模型(例如 Hugging Face 和 Replicate)的托管服务正在成为方便共享和集成模型的有用中心——甚至在模型生产者和消费者之间产生一些间接的网络效应。 还有一个强有力的假设是,可以通过与企业客户的微调和托管协议来获利。

不过,除此之外,模型提供商还面临许多重大问题:

  • 商品化。 人们普遍认为,随着时间的推移,人工智能模型的性能会趋于一致。 与应用程序开发人员交谈,很明显这还没有发生,在文本和图像模型方面都有强大的领导者。 它们的优势不是基于独特的模型架构,而是基于高资本要求、专有产品交互数据和稀缺的 AI 人才。 这会成为一个持久的优势吗?
  • 毕业风险。 依赖模型提供商是应用程序公司起步甚至发展业务的好方法。 但是,一旦达到规模,他们就有动力构建和/或托管自己的模型。 许多模型提供商的客户分布高度倾斜,少数应用程序占了大部分收入。 如果/当这些客户转向内部 AI 开发时会发生什么?
  • 钱重要吗? 生成式 AI 的前景如此广阔——也可能如此有害——以至于许多模型提供商组织了公益公司 (B corps),发行了上限利润份额,或以其他方式将公益明确纳入其使命。 这丝毫没有阻碍他们的筹款活动。 但是围绕大多数模型提供者是否真的有一个合理的讨论 捕捉价值,如果他们应该的话。

基础设施供应商触及一切,并获得回报

生成式 AI 中的几乎所有内容都在某个时刻通过云托管 GPU(或 TPU)。 无论是运行训练工作负载的模型提供商/研究实验室,运行推理/微调的托管公司,还是进行两者结合的应用程序公司—— 跳板 是生成式 AI 的命脉。 很长一段时间以来,最具颠覆性的计算技术的进步第一次受到大规模计算的限制。

因此,生成人工智能市场的大量资金最终流向了基础设施公司。 放一些 非常 粗略数字:我们估计,平均而言,应用程序公司将大约 20-40% 的收入用于推理和针对每个客户的微调。 这通常直接支付给计算实例的云提供商或第三方模型提供商——后者又将大约一半的收入用于云基础设施。 所以,有理由猜测 10-20% 的 总收入 今天在生成人工智能中,云提供商。

最重要的是,训练自己模型的初创公司已经筹集了数十亿美元的风险投资——其中大部分(早期高达 80-90%)通常也用于云提供商。 许多上市科技公司每年花费数亿美元用于模型培训,要么与外部云提供商合作,要么直接与硬件制造商合作。

用技术术语来说,这就是我们所说的“大量资金”——尤其是对于新兴市场而言。 大部分花在了 大3 云:Amazon Web Services (AWS)、Google Cloud Platform (GCP) 和 Microsoft Azure。 这些云提供商共同 花费超过 每年$ 100十亿 以确保他们拥有最全面、可靠和具有成本竞争力的平台。 特别是在生成式 AI 中,他们还受益于供应限制,因为他们可以优先使用稀缺硬件(例如 Nvidia A100 和 H100 GPU)。

不过,有趣的是,我们开始看到可信的竞争出现。 像甲骨文这样的挑战者已经通过大笔资本支出和销售激励措施取得了进展。 一些初创公司,如 Coreweave 和 Lambda Labs,凭借专门针对大型模型开发人员的解决方案迅速成长。 他们在成本、可用性和个性化支持方面展开竞争。 它们还公开了更细粒度的资源抽象(即容器),而由于 GPU 虚拟化限制,大型云仅提供 VM 实例。

在幕后,运行绝大多数 AI 工作负载的可能是迄今为止生成 AI 领域的最大赢家:Nvidia。 公司 报告 3.8 美元 十亿 2023 财年第三季度数据中心 GPU 收入的, 包括生成 AI 用例的重要部分。 通过数十年来对 GPU 架构的投资、强大的软件生态系统以及在学术界的深入使用,他们围绕这项业务建立了强大的护城河。 最近的一项分析 发现 Nvidia GPU 在研究论文中被引用的次数是顶级 AI 芯片初创公司总和的 90 倍.

确实存在其他硬件选项,包括 Google Tensor Processing Units (TPU); AMD 本能 GPU; AWS Inferentia 和 Trainium 芯片; 以及 Cerebras、Sambanova 和 Graphcore 等初创公司的 AI 加速器。 迟到的英特尔也以其高端 Habana 芯片和 Ponte Vecchio GPU 进入市场。 但到目前为止,这些新芯片中很少有占据显着的市场份额。 值得关注的两个例外是谷歌,其 TPU 在稳定扩散社区和一些大型 GCP 交易中获得了关注,而台积电据信制造 所有 此处列出的芯片的一部分,包括 Nvidia GPU(英特尔使用自己的晶圆厂和台积电的混合来制造其芯片)。

换句话说,基础设施是堆栈中有利可图、持久且看似可防御的层。 基础设施公司需要回答的重大问题包括:

  • 坚持无状态工作负载。 无论您在哪里租用 Nvidia GPU,它们都是一样的。 大多数 AI 工作负载是无状态的,因为模型推理不需要附加的数据库或存储(模型权重本身除外)。 这意味着 AI 工作负载可能比传统应用程序工作负载更易于跨云移植。 在这种情况下,云提供商如何创造粘性并防止客户跳到最便宜的选择?
  • 在芯片稀缺的终结中幸存下来。 云提供商和 Nvidia 本身的定价得到了最理想 GPU 稀缺供应的支持。 一位供应商告诉我们,A100s 的标价实际上已经 增加 自发布以来,这对于计算硬件来说是非常不寻常的。 当通过增加产量和/或采用新硬件平台最终消除这种供应限制时,这将如何影响云提供商?
  • 挑战者云能否突围? 我们坚信 垂直的云 将通过更专业的产品从三巨头那里夺取市场份额。 到目前为止,在 AI 领域,挑战者已经通过适度的技术差异化和 Nvidia 的支持获得了有意义的牵引力——对 Nvidia 来说,现有的云提供商既是最大的客户,也是新兴的竞争对手。 长期的问题是,这是否足以克服三巨头的规模优势?

那么……价值将在哪里累积?

当然,我们还不知道。 但基于我们拥有的生成人工智能的早期数据,结合 我们与早期 AI/ML 公司的合作经验,我们的直觉如下。 

今天,生成式人工智能似乎没有任何系统性的护城河。 作为一阶近似,应用程序缺乏很强的产品差异化,因为它们使用相似的模型; 模型面临不明确的长期差异,因为它们是在具有相似架构的相似数据集上训练的; 云提供商缺乏深度的技术差异化,因为他们运行相同的 GPU; 甚至硬件公司也在同一家工厂生产芯片。

当然,还有标准的护城河:规模护城河(“我拥有或可以筹集到比你更多的钱!”)、供应链护城河(“我有 GPU,你没有!”)、生态系统护城河(“每个人都已经在使用我的软件了!”)、算法护城河(“我们比你聪明!”)、分销护城河(“我已经有一个销售团队和比你更多的客户!”)和数据管道护城河(“我'我在互联网上的爬行比你还多!”)。 但从长远来看,这些护城河都不会持久。 现在判断强大、直接的网络效应是否在堆栈的任何层中占据主导地位还为时过早。

根据可用数据,尚不清楚生成式 AI 是否会出现长期的、赢者通吃的动态。

这很奇怪。 但对我们来说,这是个好消息。 这个市场的潜在规模很难把握——介于两者之间 所有软件所有人类的努力 - 所以我们期待在堆栈的各个级别都有很多很多玩家和健康的竞争。 我们还期望横向和纵向公司都能成功,最终市场和最终用户决定采用最佳方法。 例如,如果最终产品的主要差异化是 AI 本身,那么垂直化(即将面向用户的应用程序与本土模型紧密耦合)很可能会胜出。 而如果 AI 是更大的长尾特征集的一部分,那么它更有可能发生水平化。 当然,随着时间的推移,我们还应该看到更多传统护城河的建立——我们甚至可能会看到新型护城河站稳脚跟。

无论如何,我们可以肯定的是,生成式 AI 会改变游戏规则。 我们都在实时学习规则,将会释放出巨大的价值,因此技术领域将变得非常非常不同。 我们为此而来!

这篇文章中的所有图片都是使用 Midjourney 创建的。

时间戳记:

更多来自 安德森霍洛维茨