Amazon EMR が Amazon EC2 C7g (Graviton3) インスタンスのサポートを開始し、Spark ワークロードのコストパフォーマンスを 7 ~ 13% 向上させます

Amazon EMR が Amazon EC2 C7g (Graviton3) インスタンスのサポートを開始し、Spark ワークロードのコストパフォーマンスを 7 ~ 13% 向上させます

ソースノード: 1935298

アマゾンEMR Apache Spark、Hive、Presto、Trino、HBase、Flink などのオープンソース フレームワークを使用して、分析アプリケーションを簡単に実行するマネージド サービスを提供します。 の Amazon EMR ランタイム スパーク および プレストで オープンソースの Apache Spark および Presto と比較して、XNUMX 倍以上のパフォーマンス向上を実現する最適化が含まれています。

Amazon EMR リリース 6.7 では、以下を使用できるようになりました アマゾン エラスティック コンピューティング クラウド (Amazon EC2) C7g インスタンス。 AWS グラビトン 3 プロセッサ。 これらのインスタンスは、インスタンスのサイズにもよりますが、Amazon EMR で実行する Spark ワークロードの価格性能比を前世代のインスタンスよりも 7.93 ~ 13.35% 向上させます。 この投稿では、価格性能比のメリットをどのように見積もったかについて説明します。

EC2 C7g インスタンスでの Amazon EMR ランタイムのパフォーマンス

C3g インスタンスで Apache Spark (Apache Spark 6.9 と互換性あり) 用の Amazon EMR ランタイムを使用して、Amazon EMR 3.3 で TPC-DS 7 TB ベンチマーククエリを実行しました。 データは次の場所に保存されました Amazon シンプル ストレージ サービス (Amazon S3)、および結果は、前世代のインスタンスファミリーからの同等の C6g クラスターと比較されました。 TPC-DS 3 TB ベンチマーク クエリ全体で、クエリ実行時間の合計とクエリ実行時間の幾何平均を使用して、パフォーマンスの向上を測定しました。

私たちの結果は、インスタンスのサイズに応じて、C13.65g インスタンスを使用した同等の EMR クラスターと比較して、C18.73g を使用した EMR クラスターの合計クエリ ランタイム パフォーマンスが 16.98 ~ 20.28% 向上し、幾何平均が 7 ~ 6% 向上したことを示しました。 コストを比較すると、インスタンスのサイズに応じて、C7.93g を使用した EMR クラスターでは、C13.35g を使用した場合と比較して 7 ~ 6% のコスト削減が見られました。 クエリを実行するのに十分なメモリがなかったため、C6g xlarge インスタンスのベンチマークは行いませんでした。

次の表は、Amazon EMR 3 を使用して TPC-DS 6.9 TB ベンチマーク クエリを実行した結果を、同等の C7g および C6g インスタンス EMR クラスターと比較して示しています。

インスタンスサイズ 16 XL 12 XL 8 XL 4 XL 2 XL
クラスターの合計サイズ (リーダー 1 つ + コアノード 5 つ) 6 6 6 6 6
C6g での合計クエリ実行時間 (秒) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
C7g での合計クエリ実行時間 (秒) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
C7g による総クエリ実行時間の改善 視聴者の38%が 視聴者の38%が 視聴者の38%が 視聴者の38%が 視聴者の38%が
幾何平均クエリ実行時間 C6g (秒) 22.2113 21.75459 23.38081 31.97192 45.41656
幾何平均クエリ実行時間 C7g (秒) 18.43905 17.65898 19.01684 25.48695 37.43737
C7g による幾何平均クエリ実行時間の改善 視聴者の38%が 視聴者の38%が 視聴者の38%が 視聴者の38%が 視聴者の38%が
EC2 C6g インスタンスの料金 ($/時間) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
EMR C6g インスタンスの料金 ($/時間) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) インスタンス料金 ($/時間) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
C6g での実行コスト (インスタンスあたりのドル) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
EC2 C7g インスタンスの料金 ($/時間) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
EMR C7g の料金 (インスタンスあたり XNUMX 時間あたりのドル) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) C7g インスタンス料金 ($/時間) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
C7g での実行コスト (インスタンスあたりのドル) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
性能向上を含めたC7gによるトータルコスト削減 -7.93% -9.52% -9.32% -13.35% -11.13%

次のグラフは、同等の C7g 世代と比較して、C2g 6xlarge インスタンスで観察されたクエリごとの改善を示しています。

ベンチマーク方法論

この投稿で使用されるベンチマークは、業界標準の TPC-DS ベンチマークから派生したものであり、 Spark SQL パフォーマンス テスト GitHub リポジトリ 以下で 修正 適用される。

TCO は、XNUMX 時間あたりのコストにクラスター内のインスタンス数とクラスターでクエリを実行するのにかかった時間を掛けて計算しました。 すべてのインスタンスで、米国東部 (バージニア北部) リージョンのオンデマンド料金を使用しました。

まとめ

この投稿では、同等の前世代のインスタンスを使用する場合と比較して、C7g インスタンスで Amazon EMR を使用することによるコストパフォーマンスの利点をどのように見積もったかについて説明しました。 これらの新しいインスタンスを Amazon EMR で使用すると、コストパフォーマンスがさらに 7 ~ 13% 向上します。


著者について

人工知能MSアル MS アマゾン ウェブ サービスの Amazon EMR のプロダクト マネージャーです。

リョウ・キョンヒョン アマゾン ウェブ サービスの EMR のソフトウェア開発エンジニアです。 彼は主に、社内チームと顧客が生産性を最大化するための自動化ツールの設計と構築に取り組んでいます。 仕事以外では、彼は引退したプロ ゲームの世界チャンピオンであり、今でもビデオ ゲームを楽しんでいます。

玉州太陽 Amazon Web Services の EMR のソフトウェア開発エンジニアです。

スティーブ・クンス アマゾン ウェブ サービスの EMR のエンジニアリング マネージャーです。

タイムスタンプ:

より多くの AWSビッグデータ