Cloudflare 让 AI 摆脱网络边缘

Cloudflare 让 AI 摆脱网络边缘

源节点: 2906199

生成式人工智能模型可能会在大规模 GPU 集群中进行训练,但 Cloudflare 认为运行它们的明显位置不仅在边缘,而且在网络本身。

周三,配送巨头 公布 一套人工智能服务,旨在消除部署和运行大语言模型 (LLM) 和其他机器学习 (ML) 算法的复杂性,同时实现尽可能低的延迟。

实际上,通过在用户设备上运行推理工作负载可以实现尽可能低的延迟。 英特尔在这件事上下了大功夫, 人工智能 PC 一代的崛起,上周在英特尔创新中心举行。 虽然这在某些情况下可能有意义,但 Cloudflare 认为本地设备还不够强大。

“这使得网络成为推理的最佳选择。 不太远,有足够的计算能力——恰到好处,”该公司写道。

GPU 无服务器

人工智能套件包含三项核心服务。 第一个是其无服务器 Workers 平台的扩展,以支持 GPU 加速的工作负载。 该服务被称为“Workers AI”,旨在简化部署预训练模型的过程。

“没有机器学习专业知识,也没有翻遍 GPU。 只需选择提供的模型之一即可开始,”Cloudflare 声称。

我们被告知该平台运行在 Nvidia GPU 之上,但 Cloudflare 没有告诉我们是哪些。 “Cloudflare 构建的技术可以将推理任务拆分到多个不同的 GPU 上,因为我们负责调度和系统,并且我们将决定哪种芯片最适合交付该任务,”它说道。 注册 在一份声明中。

为了简单起见,该平台不(至少最初不)支持客户提供的模型。 我们被告知它计划在未来推出此功能,但目前仅限于六个预训练模型,其中包括:

  • Meta 的 Llama 2 7B Int8 用于文本生成
  • Meta 的 M2m100-1.2 用于翻译
  • OpenAI 的 Whisper 用于语音识别
  • Hugging Face 的 Distilbert-sst-2-int8 用于文本分类
  • Microsoft 用于图像分类的 Resnet-50
  • Baai 的 bge-base-en-v1.5 用于嵌入

不过,Cloudflare 表示正在努力在不久的将来扩展此列表。 像许多人工智能的希望者一样,它已经 搜罗 Hugging Face 的帮助来优化该服务的其他模型。

目前尚不清楚该平台可以支持的模型大小是否有限制,但初始列表确实提供了一些线索。 Cloudflare 正在使 Meta 的 2 亿参数 Llama 8 LLM 可在 Int7 上运行,这将需要大约 XNUMXGB 的 GPU 内存。 该公司还指出,“如果您希望运行千亿个参数版本的模型,集中式云将更适合您的工作负载。”

Cloudflare 表示,一旦启动并运行,客户可以使用 REST API 将该服务集成到他们的应用程序中,或者将其绑定到他们的 Pages 网站前端。

把它放在一起

由于 Workers AI 仅支持对预先训练的模型进行推理,Cloudflare 表示,它开发了一种名为 Vectorize 的矢量数据库服务,以使 ML 模型更轻松地将客户数据传递给用户

例如,对于聊天机器人,客户可能会将其产品目录上传到矢量数据库,模型会将其转换为嵌入式资产。

这个想法似乎是,虽然 Cloudflare 提供的 Llama 2 模型可能没有客户数据的具体知识,但聊天机器人仍然可以通过绑定到数据库服务来显示相关信息。 根据 Cloudflare 的说法,这种方法 & 推理更容易访问、更快速且占用资源更少,因为它将客户数据与模型本身解耦。

除了 Workers AI 和 Vectorize 之外,Cloudflare 的 AI 套件还包括一个用于大规模监控、优化和管理推理工作负载的平台。

该服务被称为 AI Gateway,将缓存和速率限制等通常与内容交付网络和 Web 代理相关的多项功能应用于 AI 推理,以帮助客户控制成本。

该公司在博客文章中解释道:“通过缓存常用的人工智能响应,可以减少延迟并增强系统可靠性,同时速率限制可确保有效的资源分配,从而缓解人工智能成本螺旋上升的挑战。”

定价和供货

Cloudflare 指出,该服务仍处于部署的早期阶段,目前有 100 个站点在线。 然而,该公司正在部署 GPU,以便在今年年底前将服务覆盖到 2024 个接入点,并在 XNUMX 年底前“几乎覆盖所有地方”。

因此,它还不建议在 Workers AI 上部署生产应用程序,并将其描述为“早期测试版”。

“我们今天发布的只是一个小预览,让您了解即将发生的事情,”博客文章中写道。

与往常一样,Cloudflare 表示在第一天不会为该服务付费。 话虽如此,它预计每千个“常规抽搐神经元”收费约 0.125 美分,每千个“快抽神经元”收费 XNUMX 美元。 两者之间的区别在于,后者优先考虑靠近最终用户,而两者中成本较低的在 Cloudflare 具有过剩容量的任何地方运行。

该公司解释说,神经元是衡量人工智能输出的一种方式,并补充说,一千个神经元适合大约 130 个 LLM 响应、830 个图像分类或 1,250 个嵌入®。

时间戳记:

更多来自 注册