亚马逊电子病历 提供托管服务,以使用 Apache Spark、Hive、Presto、Trino、HBase 和 Flink 等开源框架轻松运行分析应用程序。 Amazon EMR 运行时用于 火花 和 急板 包括与开源 Apache Spark 和 Presto 相比提供两倍以上性能改进的优化。
在 Amazon EMR 6.7 版中,您现在可以使用 亚马逊弹性计算云 (Amazon EC2) C7g 实例,它使用 AWS Graviton3 处理器。 这些实例将在 Amazon EMR 上运行 Spark 工作负载的性价比比上一代实例提高了 7.93-13.35%,具体取决于实例大小。 在这篇文章中,我们描述了我们如何估算性价比优势。
EC2 C7g 实例的 Amazon EMR 运行时性能
我们使用 Apache Spark 的 Amazon EMR 运行时(与 Apache Spark 3 兼容)和 C6.9g 实例在 Amazon EMR 3.3 上运行 TPC-DS 7 TB 基准查询。 数据存储在 亚马逊简单存储服务 (Amazon S3),并将结果与上一代实例系列的等效 C6g 集群进行了比较。 我们使用 TPC-DS 3 TB 基准查询的总查询运行时间和查询运行时间的几何平均值来衡量性能改进。
我们的结果显示,与具有 C13.65g 实例的等效 EMR 集群相比,具有 C18.73g 的 EMR 集群的总查询运行时性能提高了 16.98–20.28%,几何平均值提高了 7–6%,具体取决于实例大小。 在比较成本时,我们观察到与 C7.93g 相比,使用 C13.35g 的 EMR 集群的成本降低了 7–6%,具体取决于实例大小。 我们没有对 C6g xlarge 实例进行基准测试,因为它没有足够的内存来运行查询。
下表显示了使用 Amazon EMR 3 与等效的 C6.9g 和 C7g 实例 EMR 集群运行 TPC-DS 6TB 基准查询的结果。
实例大小 | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
集群总规模(1 个领导者 + 5 个核心节点) | 6 | 6 | 6 | 6 | 6 |
C6g 上的总查询运行时间(秒) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
C7g 上的总查询运行时间(秒) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
使用 C7g 的总体查询运行时间改进 | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
几何平均查询运行时间 C6g(秒) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
几何平均查询运行时间 C7g(秒) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
使用 C7g 改进几何平均查询运行时 | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
EC2 C6g 实例价格(每小时) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
EMR C6g 实例价格(每小时) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) 实例价格(每小时) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
在 C6g 上运行的成本(每个实例) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
EC2 C7g 实例价格(每小时) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
EMR C7g 价格(每个实例每小时) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) C7g 实例价格(每小时) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
在 C7g 上运行的成本(每个实例) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
使用 C7g 降低总成本,包括性能改进 | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
下图显示了与等效的 C7g 代相比,在 C2g 6xlarge 实例上观察到的每个查询改进。
基准方法
本文中使用的基准源自行业标准 TPC-DS 基准,并使用来自 Spark SQL 性能测试 GitHub 存储库 与以下 固定 应用。
我们通过将每小时成本乘以集群中的实例数和在集群上运行查询所花费的时间来计算 TCO。 我们在美国东部(弗吉尼亚北部)区域对所有实例使用按需定价。
结论
在本文中,我们描述了与使用等效的上一代实例相比,我们如何估算将 Amazon EMR 与 C7g 实例结合使用的成本性能优势。 将这些新实例与 Amazon EMR 结合使用可将成本性能额外提高 7–13%。
关于作者
艾尔女士 是 Amazon Web Services 的 Amazon EMR 产品经理。
景贤柳 是 Amazon Web Services 的 EMR 软件开发工程师。 他主要致力于为内部团队和客户设计和构建自动化工具,以最大限度地提高他们的生产力。 工作之余,他是一位退休的职业游戏世界冠军,但仍然喜欢玩电子游戏。
孙禹洲 是 Amazon Web Services 的 EMR 软件开发工程师。
史蒂夫·昆斯 是 Amazon Web Services 的 EMR 工程经理。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- 横过
- 额外
- AI
- 所有类型
- Amazon
- Amazon EC2
- 亚马逊电子病历
- 亚马逊网络服务
- 分析
- 和
- 阿帕奇
- Apache Spark
- 应用领域
- 应用的
- 自动化和干细胞工程
- 因为
- 基准
- 得益
- 建筑物
- 计算
- 冠军
- 簇
- 相比
- 比较
- 兼容
- 计算
- 核心
- 价格
- 降低成本
- 成本
- 合作伙伴
- data
- 根据
- 派生
- 描述
- 描述
- 设计
- 研发支持
- DID
- 容易
- 东部
- 工程师
- 工程师
- 享受
- 估计
- 醚(ETH)
- 家庭
- 以下
- 框架
- 止
- Games
- 赌博
- 代
- 代
- GitHub上
- 图形
- 蜂房
- 创新中心
- HTTPS
- 改善
- 改进
- 改善
- 提高
- in
- 包括
- 包含
- 例
- 内部
- IT
- 启动
- 领导者
- 管理
- 经理
- 生产力
- 内存
- MS
- 倍增
- 全新
- 节点
- 数
- 开放源码
- 学校以外
- 性能
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 帖子
- 以前
- 车资
- 价格
- 主要
- 处理器
- 产品
- 产品经理
- 生产率
- 所以专业
- 提供
- 提供
- 地区
- 释放
- 成果
- 运行
- 运行
- 秒
- 服务
- 特色服务
- 作品
- 简易
- 尺寸
- 软件
- 软件开发
- 火花
- SQL
- 仍
- 存储
- 存储
- 这样
- 足够
- SUPPORT
- 表
- 队
- 测试
- 其
- 次
- 至
- 工具
- 合计
- us
- 使用
- 视频
- 视频游戏
- 弗吉尼亚州
- 卷筒纸
- Web服务
- 这
- WHO
- 工作
- 合作
- 世界
- 和风网