2020 年 XNUMX 月,AWS 宣布正式推出 Amazon EMR 托管扩展. 借助 EMR 托管扩展,您可以为集群指定最小和最大计算限制,Amazon EMR 会自动调整集群大小以获得最佳性能和资源利用率。 EMR Managed Scaling 持续监控与工作负载相关的关键指标,并使用优化集群大小的算法以获得最佳资源利用率。 由于该功能是完全托管的,因此无需升级版本即可立即实现对算法的改进。 Amazon EMR 可以在高峰期扩展集群并在空闲期正常缩减集群,从而降低成本并优化集群容量以获得最佳性能。
在整个 2022 年,我们对 EMR 托管扩展算法进行了多项改进。 通过这些改进,我们发现对于启用了 EMR Managed Scaling 的集群,利用率提高了 15%,总成本进一步降低了 19%。 从 2022 年 5.34.0 月中旬开始,默认情况下为使用 Amazon EMR 6.4.0 及更高版本的集群和 Amazon EMR XNUMX 及更高版本的新集群和现有集群启用 EMR 托管扩展增强功能。 此外,鉴于该功能是完全托管的,您将默认获得新的优化托管扩展算法,并且您无需采取任何措施。
下面列出了我们为 EMR 托管扩展启用的一些关键增强功能:
- 通过有针对性地缩减 EMR 集群来提高集群利用率
- 通过防止缩小使用存储中间洗牌数据的实例来降低成本 Spark Shuffle 数据感知
- 通过逐步扩展 EMR 集群提高集群利用率并降低成本
客户成功案例
增强的 EMR Managed Scaling 算法如何帮助技术企业降低成本:
为了通过示例说明成本节省,我们研究了一家技术企业的 EMR 集群,该集群大量使用 Amazon EMR 来处理 Kafka 和使用 Spark 的 S3 之间的实时计费数据。 他们运行 EMR 版本 5.35 的持久性 EMR 集群,并启用了 EMR Managed Scaling。 以下 Amazon CloudWatch 仪表板显示了如何从 21 月 XNUMX 日开始配置增强的托管扩展算法 (请求的节点总数) 只有 70 个节点,而之前的 Managed Scaling 算法为类似的作业配置文件配置了 179 个节点。 为运行您的作业而配置的资源数量越少,您的 EMR 集群的总成本就越低。
增强的 EMR Managed Scaling 算法如何帮助广告企业降低成本:
我们还研究了一家广告企业的 EMR 集群,该集群将 Amazon EMR 用于其数据分析策略,并使用 Spark 执行其批处理 ETL 作业。 他们在 EMR 6.5 版上运行集群,并启用了 EMR Managed Scaling。 以下 Amazon CloudWatch 控制面板显示了从 15 月 XNUMX 日开始,增强的托管扩展算法如何配置(请求的总单位) 只有 41 个节点,而之前的 Managed Scaling 算法为类似的作业配置文件配置了 86 个节点。
估算 EMR 集群的成本节约和利用率改进:
集群成本节约:
要查看使用 EMR 托管扩展增强功能为您的 EMR 集群节省的估计成本,请按照以下步骤操作:
- 打开 CloudWatch 指标控制台 并且,在 电子病历, 按您的搜索
ClusterId
. - 从 EMR 可用的指标列表中,选择以下两个指标:
- 运行能力 – 根据您在 Managed Scaling 策略中指定的单元类型,这将以“总运行单位“ 要么 ”运行节点总数“或”总 VCPU 运行=.
- Managed Scaling 请求的容量 – 根据您在 Managed Scaling 策略中指定的单元类型,这将以“要求的总单位“ 要么 ”请求的总节点数“或”请求的总 VCPU=.
- 将这两个指标绘制到您的 CloudWatch 控制面板。
- 选择 3 年 2022 月至 2023 年 XNUMX 月之间的 XNUMX 个月作为时间范围,以查看与以前的托管扩展算法相比增强的托管扩展算法的改进。
集群利用率改进:
要使用 EMR Managed Scaling 增强功能估算 EMR 集群利用率的改进,请按照以下步骤操作:
- 打开 CloudWatch 指标控制台,然后在 电子病历, 按您的搜索
ClusterId
. - 从可用于 EMR 的指标列表中,选择“YARN内存可用百分比” 指标。
- 要导出 YARN 使用的内存,请添加一个数学表达式,例如“Add Math → Start with empty expression”
- 对于新的数学表达式,设置 标签=纱线利用率 并设置 详细信息=100-YARNMemoryAvailablePercentage.
- 将集群利用率指标绘制到您的 CloudWatch 控制面板。
- 选择 3 年 2022 月至 2023 年 XNUMX 月之间的 XNUMX 个月作为时间范围,以查看与以前的托管扩展算法相比增强的托管扩展算法的改进。
下一步是什么
我们将在每个新的 EMR 版本中继续调整 Managed Scaling 算法,从而在使用 EMR Managed Scaling 扩展集群时改善客户体验。
结论
在本文中,我们概述了我们在 EMR Managed Scaling 中推出的关键增强功能。 通过这些增强,我们发现集群利用率提高了 15%,集群成本降低了 19%。 从 2022 年 5.34.0 月中旬开始,使用 Amazon EMR 版本 6.4.0 及更高版本以及 Amazon EMR 版本 XNUMX 及更高版本的 EMR 集群默认启用这些增强功能。 鉴于 EMR Managed Scaling 是一项完全托管的功能,您将默认获得经过优化的新 EMR Managed Scaling 算法,并且您无需执行任何操作。
要了解更多信息并开始使用 EMR 托管扩展,请访问 EMR 托管扩展文档页面.
作者简介
苏珊特·马吉蒂亚 是 Amazon Web Services 的 EMR 首席产品经理。
维沙尔维亚斯 是 Amazon Web Services 的 EMR 高级软件工程师。
马修连姆 是 AWS 的高级解决方案架构经理。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/big-data/reduce-amazon-emr-cluster-costs-by-up-to-19-with-new-enhancements-in-amazon-emr-managed-scaling/
- 2020
- 2022
- 2023
- 70
- 84
- a
- 操作
- 广告
- 算法
- Amazon
- 亚马逊电子病历
- 亚马逊网络服务
- 分析
- 和
- 公布
- 架构
- 自动
- 可用性
- 可使用
- AWS
- 基于
- 如下。
- 最佳
- 之间
- 计费
- 容量
- 簇
- 相比
- 完全
- 计算
- 安慰
- 经常
- 继续
- 价格
- 节约成本
- 成本
- 顾客
- 客户体验
- XNUMX月XNUMX日
- data
- 数据分析
- 十二月
- 默认
- 向下
- ,我们将参加
- 启用
- 工程师
- 增强
- 企业
- 评估
- 估计
- 醚(ETH)
- 所有的
- 例子
- 执行
- 现有
- 体验
- 专栏
- 遵循
- 以下
- FRAME
- 止
- 进一步
- 其他咨询
- 得到
- 特定
- 逐步
- 严重
- 帮助
- 创新中心
- HTML
- HTTPS
- 空闲
- 立即
- 改善
- 改善
- 改善
- in
- 中级
- IT
- 一月
- 工作
- 工作机会
- 卡夫卡
- 键
- 推出
- 学习用品
- 杠杆
- 范围
- 清单
- 看着
- 制成
- 管理
- 经理
- 数学
- 最多
- 内存
- 公
- 指标
- 最低限度
- 显示器
- 个月
- 更多
- 多
- 打印车票
- 需要
- 全新
- 节点
- 十一月
- 数
- 最佳
- 优化
- 优化
- 追求项目的积极优化
- 简介
- 百分
- 性能
- 期
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 请
- 政策
- 帖子
- 预防
- 以前
- 校长
- 过程
- 产品
- 产品经理
- 本人简介
- 提供
- 真实
- 实时的
- 实现
- 减少
- 减少
- 减少
- 释放
- 要求
- 资源
- 资源
- 运行
- 储
- 鳞片
- 放大
- 缩放
- 搜索
- 前辈
- 特色服务
- 集
- 作品
- 洗牌
- 类似
- 尺寸
- 软件
- 软件工程师
- 方案,
- 一些
- 火花
- 指定
- 开始
- 开始
- 开始
- 步骤
- 商店
- 策略
- 成功
- 这样
- 针对
- 专业技术
- 其
- 从而
- 次
- 至
- 合计
- 下
- 单元
- 单位
- 升级
- 利用
- 版本
- 查看
- 卷筒纸
- Web服务
- 这
- 将
- 也完全不需要
- 您一站式解决方案
- 和风网