弹性在任何工作负载的发展中都发挥着关键作用,并且 生成式人工智能 工作负载没有什么不同。通过弹性视角设计生成式人工智能工作负载时,需要考虑一些独特的因素。了解弹性并确定其优先级对于生成型 AI 工作负载满足组织可用性和业务连续性要求至关重要。在这篇文章中,我们讨论生成人工智能工作负载的不同堆栈以及这些考虑因素应该是什么。
全栈生成式人工智能
尽管生成式人工智能的许多令人兴奋的地方都集中在模型上,但完整的解决方案涉及来自多个领域的人员、技能和工具。考虑下图,它是大型语言模型 (LLM) 的 a16z 新兴应用程序堆栈的 AWS 视图。
与围绕人工智能和机器学习 (ML) 构建的更传统的解决方案相比,生成式人工智能解决方案现在涉及以下内容:
- 新角色 – 您必须考虑模型调整器以及模型构建器和模型集成器
- 新工具 – 传统的 MLOps 堆栈无法扩展以涵盖快速工程或调用工具与其他系统交互的代理所需的实验跟踪或可观察性类型
代理推理
与传统的人工智能模型不同,检索增强生成(RAG)可以通过集成外部知识源来提供更准确且与上下文相关的响应。以下是使用 RAG 时的一些注意事项:
- 设置适当的超时对于客户体验非常重要。没有什么比在聊天过程中突然断线更能说明糟糕的用户体验了。
- 确保针对模型定义的分配字符限制验证提示输入数据和提示输入大小。
- 如果您正在执行提示工程,则应该将提示保存到可靠的数据存储中。这将在意外丢失的情况下保护您的提示,或者作为您整体灾难恢复策略的一部分。
数据管道
如果您需要使用 RAG 模式向基础模型提供上下文数据,则需要一个数据管道来提取源数据,将其转换为嵌入向量,并将嵌入向量存储在向量数据库中。如果您提前准备上下文数据,则该管道可以是批处理管道;如果您要动态合并新的上下文数据,则该管道可以是低延迟管道。在批处理情况下,与典型的数据管道相比,存在一些挑战。
数据源可以是文件系统上的 PDF 文档、来自 CRM 工具等软件即服务 (SaaS) 系统的数据,或者来自现有 wiki 或知识库的数据。从这些源获取的数据与典型的数据源(例如日志数据)不同。 亚马逊简单存储服务 (Amazon S3) 存储桶或关系数据库中的结构化数据。您可以实现的并行级别可能受到源系统的限制,因此您需要考虑限制并使用退避技术。某些源系统可能很脆弱,因此您需要构建错误处理和重试逻辑。
无论您是在管道中本地运行还是调用外部模型,嵌入模型都可能成为性能瓶颈。嵌入模型是在 GPU 上运行的基础模型,容量不受限制。如果模型在本地运行,则需要根据GPU容量分配工作。如果模型在外部运行,您需要确保外部模型没有饱和。无论哪种情况,您可以实现的并行级别都将取决于嵌入模型,而不是批处理系统中可用的 CPU 和 RAM 数量。
在低延迟情况下,您需要考虑生成嵌入向量所需的时间。调用应用程序应异步调用管道。
矢量数据库
向量数据库有两个功能:存储嵌入向量,并运行相似性搜索以查找最接近的向量 k 匹配到一个新向量。矢量数据库一般分为三种类型:
我们不会在本文中详细介绍相似性搜索功能。尽管它们很重要,但它们是系统的功能方面,不会直接影响弹性。相反,我们关注矢量数据库作为存储系统的弹性方面:
- 潜伏 – 矢量数据库能否在高负载或不可预测的负载下表现良好?如果不是,调用应用程序需要处理速率限制、退避和重试。
- 可扩展性 – 系统可以容纳多少个向量?如果超出矢量数据库的容量,则需要考虑分片或其他解决方案。
- 高可用性和灾难恢复 – 嵌入向量是有价值的数据,重新创建它们可能会很昂贵。您的矢量数据库在单个 AWS 区域中是否具有高可用性?它是否能够将数据复制到另一个区域以进行灾难恢复?
应用层
集成生成式人工智能解决方案时,应用层需要考虑三个独特的因素:
- 潜在的高延迟 – 基础模型通常在大型 GPU 实例上运行,并且容量可能有限。确保使用速率限制、退避和重试以及负载卸载的最佳实践。使用异步设计,以便高延迟不会干扰应用程序的主界面。
- 安全态势 – 如果您使用代理、工具、插件或其他方法将模型连接到其他系统,请特别注意您的安全状况。模型可能会尝试以意想不到的方式与这些系统交互。遵循最低权限访问的正常做法,例如限制来自其他系统的传入提示。
- 快速发展的框架 –像LangChain这样的开源框架正在迅速发展。使用微服务方法将其他组件与这些不太成熟的框架隔离。
容量
我们可以在两种情况下考虑容量:推理和训练模型数据管道。当组织构建自己的管道时,容量是一个考虑因素。 CPU 和内存要求是选择运行工作负载的实例时的两个最大要求。
与普通通用实例类型相比,能够支持生成式 AI 工作负载的实例可能更难获得。实例灵活性有助于容量和容量规划。根据您运行工作负载的 AWS 区域,可以使用不同的实例类型。
对于至关重要的用户旅程,组织将需要考虑预留或预配置实例类型,以确保需要时的可用性。此模式实现了静态稳定的架构,这是一种弹性最佳实践。要了解有关 AWS 架构完善的框架可靠性支柱中的静态稳定性的更多信息,请参阅 使用静态稳定性来防止双峰行为.
可观察性
除了您通常收集的资源指标(例如 CPU 和 RAM 利用率)之外,如果您将模型托管在 亚马逊SageMaker or 亚马逊弹性计算云 (亚马逊 EC2)。如果基本模型或输入数据发生变化,GPU 利用率可能会发生意外变化,并且 GPU 内存耗尽可能会使系统陷入不稳定状态。
在堆栈的更高层,您还需要跟踪系统中的调用流程,捕获代理和工具之间的交互。由于代理和工具之间的接口不像 API 契约那样正式定义,因此您不仅应该监视这些跟踪以提高性能,还应该捕获新的错误场景。要监控模型或代理是否存在任何安全风险和威胁,您可以使用以下工具 亚马逊GuardDuty.
您还应该捕获嵌入向量、提示、上下文和输出的基线,以及它们之间的交互。如果这些随着时间的推移而变化,则可能表明用户正在以新的方式使用系统,参考数据没有以相同的方式覆盖问题空间,或者模型的输出突然不同。
灾难恢复
对于任何工作负载来说,都必须制定具有灾难恢复策略的业务连续性计划。生成式人工智能工作负载也不例外。了解适用于您的工作负载的故障模式将有助于指导您的策略。如果您正在为工作负载使用 AWS 托管服务,例如 亚马逊基岩 和 SageMaker,请确保该服务在您的恢复 AWS 区域中可用。截至撰写本文时,这些 AWS 服务本身不支持跨 AWS 区域复制数据,因此您需要考虑灾难恢复的数据管理策略,并且可能还需要在多个 AWS 区域中进行微调。
结论
这篇文章描述了在构建生成式人工智能解决方案时如何考虑弹性。尽管生成式人工智能应用程序有一些有趣的细微差别,但现有的弹性模式和最佳实践仍然适用。只需评估生成式人工智能应用程序的每个部分并应用相关的最佳实践即可。
有关生成式 AI 及其与 AWS 服务结合使用的更多信息,请参阅以下资源:
作者简介
詹妮弗莫兰 是纽约市的 AWS 高级弹性专家解决方案架构师。她拥有多元化的背景,曾在许多技术领域工作过,包括软件开发、敏捷领导力和 DevOps,并且是科技领域女性的倡导者。她喜欢帮助客户设计弹性解决方案以改善弹性状态,并公开谈论与弹性相关的所有主题。
兰迪·德福 是 AWS 的高级首席解决方案架构师。他拥有密歇根大学电子工程硕士学位,在那里从事自动驾驶汽车的计算机视觉研究。他还拥有科罗拉多州立大学的 MBA 学位。 Randy 在技术领域担任过多种职位,从软件工程到产品管理。他于 2013 年进入大数据领域,并继续探索该领域。他积极致力于 ML 领域的项目,并在包括 Strata 和 GlueCon 在内的众多会议上发表演讲。
- :具有
- :是
- :不是
- :在哪里
- $UP
- 100
- 2013
- 90
- a
- a16z
- 对,能力--
- 关于
- ACCESS
- 偶然
- 账号管理
- 精准的
- 实现
- 横过
- 积极地
- 推进
- 主张
- 影响
- 驳
- 经纪人
- 中介代理
- 敏捷
- AI
- AI模型
- 所有类型
- 分配
- 允许
- 还
- 尽管
- Amazon
- Amazon EC2
- 亚马逊网络服务
- an
- 和
- 另一个
- 任何
- API
- 应用
- 相应
- 应用领域
- 应用领域
- 使用
- 应用
- 的途径
- 适当
- 架构
- 保健
- 国家 / 地区
- 围绕
- AS
- 方面
- 方面
- At
- 关注我们
- 增强
- 自主性
- 自主车辆
- 可用性
- 可使用
- AWS
- 背景
- 坏
- 基地
- 基于
- BE
- 因为
- 作为
- 最佳
- 最佳实践
- 之间
- 大
- 大数据运用
- 最大
- 瓶颈
- 建立
- 建设者
- 建筑物
- 建
- 商业
- 业务连续性
- 但是
- by
- 呼叫
- 调用
- 呼叫
- CAN
- 能力
- 容量
- 捕获
- 捕获
- 案件
- 例
- 挑战
- 更改
- 更改
- 字符
- 即时通话
- 选择
- 城市
- 密切
- 收集
- 科罗拉多州
- 相比
- 完成
- 组件
- 计算
- 一台
- 计算机视觉
- 会议
- 连接
- 考虑
- 考虑
- 注意事项
- 上下文
- 上下文
- 上下文
- 继续
- 连续性
- 合同
- 兑换
- 可以
- 情侣
- 外壳
- 覆盖
- 中央处理器
- 危急
- 客户关系管理
- 关键
- 顾客
- 客户体验
- 合作伙伴
- data
- 数据管理
- 数据库
- 数据库
- 定义
- 根据
- 描述
- 设计
- 设计
- 设计
- 细节
- 研发支持
- DevOps的
- 决定
- 不同
- 难
- 直接
- 灾害
- 学科
- 断开的
- 讨论
- 不同
- do
- 文件
- 不
- 不会
- 域名
- 别
- 每
- 或
- 嵌入
- 新兴经济体的新市场。
- 工程师
- 确保
- 进入
- 错误
- 醚(ETH)
- 评估
- 演变
- 例子
- 超过
- 激动
- 现有
- 昂贵
- 体验
- 实验
- 探索
- 延长
- 外部
- 外部
- 额外
- 失败
- 特征
- 文件
- 找到最适合您的地方
- 高度灵活
- 流
- 专注焦点
- 重点
- 遵循
- 以下
- 针对
- 正式地
- 基金会
- 骨架
- 框架
- 止
- 实用
- 功能
- 其他咨询
- 一般用途
- 生成
- 代
- 生成的
- 生成式人工智能
- 越来越
- GPU
- 图形处理器
- 指南
- 处理
- 处理
- 有
- 有
- he
- 保持
- 帮助
- 帮助
- 高
- 高度
- 举行
- 持有
- 主持人
- 创新中心
- How To
- HTML
- HTTP
- HTTPS
- if
- 重要
- 改善
- in
- 包括
- 包含
- 来电
- 结合
- 表明
- 信息
- 输入
- 例
- 实例
- 代替
- 整合
- 相互作用
- 互动
- 有趣
- 接口
- 干扰
- 成
- 涉及
- IT
- 旅程
- 只是
- 知识
- 语言
- 大
- 潜伏
- 领导团队
- 学习用品
- 学习
- 光学棱镜
- 减
- Level
- 喜欢
- 有限
- 限制
- 范围
- LLM
- 加载
- 当地
- 日志
- 逻辑
- 看
- 离
- 占地
- 机
- 机器学习
- 主要
- 使
- 管理
- 颠覆性技术
- 许多
- 火柴
- 问题
- 成熟
- 可能..
- MBA
- 满足
- 内存
- 方法
- 指标
- 密歇根州
- 微服务
- 中间
- ML
- 多播
- 模型
- 模型
- 模式
- 显示器
- 更多
- 许多
- 多
- 必须
- 本地人
- 本地
- 必要
- 需求
- 打印车票
- 需要
- 全新
- 纽约
- 纽约市
- 没有
- 正常
- 没什么
- 现在
- 细微之处
- 众多
- 获得
- of
- 经常
- on
- 仅由
- 打开
- 开放源码
- 附加选项
- or
- 组织
- 组织
- 其他名称
- 输出
- 产量
- 超过
- 最划算
- 己
- 部分
- 模式
- 模式
- 员工
- 演出
- 性能
- 执行
- 图片
- 支柱
- 管道
- 关键的
- 计划
- 规划行程
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 扮演
- 插件
- 职位
- 帖子
- 在练习上
- 做法
- Prepare
- 呈现
- 防止
- 校长
- 优先顺序
- 处理
- 产品
- 产品管理
- 项目
- 提示
- 提供
- 公然
- 目的
- 放
- 题
- 抹布
- 内存
- 范围
- 急速
- 率
- 宁
- 恢复
- 参考
- 参考
- 而不管
- 地区
- 地区
- 有关
- 相应
- 可靠性
- 可靠
- 复制
- 岗位要求
- 弹性
- 弹性
- 资源
- 资源
- 回复
- 限制
- 恢复
- 风险
- 角色
- 运行
- 运行
- 运行
- SaaS的
- sagemaker
- 同
- 说
- 情景
- 搜索
- 搜索
- 保安
- 安全风险
- 前辈
- 服务
- 特色服务
- 几个
- 分片
- 她
- 脱落
- 应该
- 简易
- 单
- 尺寸
- 技能
- So
- 软件
- 软件作为一种服务
- 软件开发
- 软件工程
- 方案,
- 解决方案
- 一些
- 来源
- 来源
- 太空
- 说
- 专家
- 稳定性
- 稳定
- 堆
- 堆栈
- 州/领地
- 仍
- 存储
- 商店
- 策略
- 策略
- 结构化
- 这样
- SUPPORT
- 肯定
- 系统
- 产品
- 采取
- 需要
- 分类
- 科技
- 文案
- 技术
- 专业技术
- 比
- 这
- 其
- 他们
- 那里。
- 博曼
- 他们
- 认为
- Free Introduction
- 那些
- 威胁
- 三
- 通过
- 一线
- 次
- 至
- 工具
- 工具
- Topics
- 追踪
- 跟踪
- 传统
- 产品培训
- 尝试
- 二
- 类型
- 类型
- 普遍
- 一般
- 理解
- 意外
- 独特
- 大学
- 密歇根大学
- 无限
- 变幻莫测
- 使用
- 用过的
- 用户
- 用户体验
- 用户
- 运用
- 验证
- 有价值
- 各种
- 车辆
- 查看
- 愿景
- 想
- 方法..
- 方法
- we
- 卷筒纸
- Web服务
- 井
- 什么是
- ,尤其是
- 是否
- 这
- 将
- 女性
- 科技界的女性
- 工作
- 工作
- 加工
- 写作
- 纽约
- 您
- 您一站式解决方案
- 和风网