Amazon EMR 推出对 Amazon EC2 C7g (Graviton3) 实例的支持,以将 Spark 工作负载的性价比提高 7–13%

Amazon EMR 推出对 Amazon EC2 C7g (Graviton3) 实例的支持,以将 Spark 工作负载的性价比提高 7–13%

源节点: 1935298

亚马逊电子病历 提供托管服务,以使用 Apache Spark、Hive、Presto、Trino、HBase 和 Flink 等开源框架轻松运行分析应用程序。 Amazon EMR 运行时用于 火花 急板 包括与开源 Apache Spark 和 Presto 相比提供两倍以上性能改进的优化。

在 Amazon EMR 6.7 版中,您现在可以使用 亚马逊弹性计算云 (Amazon EC2) C7g 实例,它使用 AWS Graviton3 处理器。 这些实例将在 Amazon EMR 上运行 Spark 工作负载的性价比比上一代实例提高了 7.93-13.35%,具体取决于实例大小。 在这篇文章中,我们描述了我们如何估算性价比优势。

EC2 C7g 实例的 Amazon EMR 运行时性能

我们使用 Apache Spark 的 Amazon EMR 运行时(与 Apache Spark 3 兼容)和 C6.9g 实例在 Amazon EMR 3.3 上运行 TPC-DS 7 TB 基准查询。 数据存储在 亚马逊简单存储服务 (Amazon S3),并将结果与​​上一代实例系列的等效 C6g 集群进行了比较。 我们使用 TPC-DS 3 TB 基准查询的总查询运行时间和查询运行时间的几何平均值来衡量性能改进。

我们的结果显示,与具有 C13.65g 实例的等效 EMR 集群相比,具有 C18.73g 的 EMR 集群的总查询运行时性能提高了 16.98–20.28%,几何平均值提高了 7–6%,具体取决于实例大小。 在比较成本时,我们观察到与 C7.93g 相比,使用 C13.35g 的 EMR 集群的成本降低了 7–6%,具体取决于实例大小。 我们没有对 C6g xlarge 实例进行基准测试,因为它没有足够的内存来运行查询。

下表显示了使用 Amazon EMR 3 与等效的 C6.9g 和 C7g 实例 EMR 集群运行 TPC-DS 6TB 基准查询的结果。

实例大小 16 XL 12 XL 8 XL 4 XL 2 XL
集群总规模(1 个领导者 + 5 个核心节点) 6 6 6 6 6
C6g 上的总查询运行时间(秒) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
C7g 上的总查询运行时间(秒) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
使用 C7g 的总体查询运行时间改进 13.65% 15.13% 14.95% 18.73% 16.64%
几何平均查询运行时间 C6g(秒) 22.2113 21.75459 23.38081 31.97192 45.41656
几何平均查询运行时间 C7g(秒) 18.43905 17.65898 19.01684 25.48695 37.43737
使用 C7g 改进几何平均查询运行时 16.98% 18.83% 18.66% 20.28% 17.57%
EC2 C6g 实例价格(每小时) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
EMR C6g 实例价格(每小时) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) 实例价格(每小时) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
在 C6g 上运行的成本(每个实例) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
EC2 C7g 实例价格(每小时) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
EMR C7g 价格(每个实例每小时) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) C7g 实例价格(每小时) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
在 C7g 上运行的成本(每个实例) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
使用 C7g 降低总成本,包括性能改进 -7.93% -9.52% -9.32% -13.35% -11.13%

下图显示了与等效的 C7g 代相比,在 C2g 6xlarge 实例上观察到的每个查询改进。

基准方法

本文中使用的基准源自行业标准 TPC-DS 基准,并使用来自 Spark SQL 性能测试 GitHub 存储库 与以下 固定 应用。

我们通过将每小时成本乘以集群中的实例数和在集群上运行查询所花费的时间来计算 TCO。 我们在美国东部(弗吉尼亚北部)区域对所有实例使用按需定价。

结论

在本文中,我们描述了与使用等效的上一代实例相比,我们如何估算将 Amazon EMR 与 C7g 实例结合使用的成本性能优势。 将这些新实例与 Amazon EMR 结合使用可将成本性能额外提高 7–13%。


关于作者

人工智能硕士艾尔女士 是 Amazon Web Services 的 Amazon EMR 产品经理。

景贤柳 是 Amazon Web Services 的 EMR 软件开发工程师。 他主要致力于为内部团队和客户设计和构建自动化工具,以最大限度地提高他们的生产力。 工作之余,他是一位退休的职业游戏世界冠军,但仍然喜欢玩电子游戏。

孙禹洲 是 Amazon Web Services 的 EMR 软件开发工程师。

史蒂夫·昆斯 是 Amazon Web Services 的 EMR 工程经理。

时间戳记:

更多来自 AWS 大数据