Amazon EMR 推出对 Amazon EC2 C7g (Graviton3) 实例的支持，将 Spark 工作负载的成本性能提高 7–13%

由柏拉图重新发布

关注： 0

亚马逊电子病历提供托管服务，以使用 Apache Spark、Hive、Presto、Trino、HBase 和 Flink 等开源框架轻松运行分析应用程序。 Amazon EMR 运行时用于火花和急板包括与开源 Apache Spark 和 Presto 相比提供两倍以上性能改进的优化。

在 Amazon EMR 6.7 版中，您现在可以使用亚马逊弹性计算云 (Amazon EC2) C7g 实例，它使用 AWS Graviton3 处理器。这些实例将在 Amazon EMR 上运行 Spark 工作负载的性价比比上一代实例提高了 7.93-13.35%，具体取决于实例大小。在这篇文章中，我们描述了我们如何估算性价比优势。

EC2 C7g 实例的 Amazon EMR 运行时性能

我们使用 Apache Spark 的 Amazon EMR 运行时（与 Apache Spark 3 兼容）和 C6.9g 实例在 Amazon EMR 3.3 上运行 TPC-DS 7 TB 基准查询。数据存储在亚马逊简单存储服务 (Amazon S3)，并将结果与上一代实例系列的等效 C6g 集群进行了比较。我们使用 TPC-DS 3 TB 基准查询的总查询运行时间和查询运行时间的几何平均值来衡量性能改进。

我们的结果显示，与具有 C13.65g 实例的等效 EMR 集群相比，具有 C18.73g 的 EMR 集群的总查询运行时性能提高了 16.98–20.28%，几何平均值提高了 7–6%，具体取决于实例大小。在比较成本时，我们观察到与 C7.93g 相比，使用 C13.35g 的 EMR 集群的成本降低了 7–6%，具体取决于实例大小。我们没有对 C6g xlarge 实例进行基准测试，因为它没有足够的内存来运行查询。

下表显示了使用 Amazon EMR 3 与等效的 C6.9g 和 C7g 实例 EMR 集群运行 TPC-DS 6TB 基准查询的结果。

实例大小	16 XL	12 XL	8 XL	4 XL	2 XL
集群总规模（1 个领导者 + 5 个核心节点）	6	6	6	6	6
C6g 上的总查询运行时间（秒）	2774.86205	2752.84429	3173.08086	5108.45489	8697.08117
C7g 上的总查询运行时间（秒）	2396.22799	2336.28224	2698.72928	4151.85869	7249.58148
使用 C7g 的总体查询运行时间改进	13.65%	15.13%	14.95%	18.73%	16.64%
几何平均查询运行时间 C6g（秒）	22.2113	21.75459	23.38081	31.97192	45.41656
几何平均查询运行时间 C7g（秒）	18.43905	17.65898	19.01684	25.48695	37.43737
使用 C7g 改进几何平均查询运行时	16.98%	18.83%	18.66%	20.28%	17.57%
EC2 C6g 实例价格（每小时）	$2.1760	$1.6320	$1.0880	$0.5440	$0.2720
EMR C6g 实例价格（每小时）	$0.5440	$0.4080	$0.2720	$0.1360	$0.0680
(EC2 + EMR) 实例价格（每小时）	$2.7200	$2.0400	$1.3600	$0.6800	$0.3400
在 C6g 上运行的成本（每个实例）	$2.09656	$1.55995	$1.19872	$0.96493	$0.82139
EC2 C7g 实例价格（每小时）	$2.3200	$1.7400	$1.1600	$0.5800	$0.2900
EMR C7g 价格（每个实例每小时）	$0.5800	$0.4350	$0.2900	$0.1450	$0.0725
(EC2 + EMR) C7g 实例价格（每小时）	$2.9000	$2.1750	$1.4500	$0.7250	$0.3625
在 C7g 上运行的成本（每个实例）	$1.930290	$1.411500	$1.086990	$0.836140	$0.729990
使用 C7g 降低总成本，包括性能改进	-7.93％	-9.52％	-9.32％	-13.35％	-11.13％

下图显示了与等效的 C7g 代相比，在 C2g 6xlarge 实例上观察到的每个查询改进。

基准方法

本文中使用的基准源自行业标准 TPC-DS 基准，并使用来自 Spark SQL 性能测试 GitHub 存储库与以下固定应用。

我们通过将每小时成本乘以集群中的实例数和在集群上运行查询所花费的时间来计算 TCO。我们在美国东部（弗吉尼亚北部）区域对所有实例使用按需定价。

结论

在本文中，我们描述了与使用等效的上一代实例相比，我们如何估算将 Amazon EMR 与 C7g 实例结合使用的成本性能优势。将这些新实例与 Amazon EMR 结合使用可将成本性能额外提高 7–13%。

关于作者

人工智能硕士 艾尔女士 是 Amazon Web Services 的 Amazon EMR 产品经理。

景贤柳 是 Amazon Web Services 的 EMR 软件开发工程师。他主要致力于为内部团队和客户设计和构建自动化工具，以最大限度地提高他们的生产力。工作之余，他是一位退休的职业游戏世界冠军，但仍然喜欢玩电子游戏。

孙禹洲 是 Amazon Web Services 的 EMR 软件开发工程师。

史蒂夫·昆斯 是 Amazon Web Services 的 EMR 工程经理。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
Sumber: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/

时间戳记： 2023 年 2 月 1 日

时间戳记： 2023 年 4 月 27 日

Amazon EMR 推出对 Amazon EC2 C7g (Graviton3) 实例的支持，以将 Spark 工作负载的性价比提高 7–13%

由柏拉图重新发布

EC2 C7g 实例的 Amazon EMR 运行时性能

基准方法

结论

关于作者

更多来自 AWS 大数据

使用 Apache Iceberg 和 AWS Glue 自动将关系源复制到事务数据湖中

开始使用适用于 ETL 管道的 AWS Glue 数据质量

使用 Amazon OpenSearch Ingestion 进行大量跟踪的最佳策略

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理