アマゾンEMR Apache Spark、Hive、Presto、Trino、HBase、Flink などのオープンソース フレームワークを使用して、分析アプリケーションを簡単に実行するマネージド サービスを提供します。 の Amazon EMR ランタイム スパーク および プレストで オープンソースの Apache Spark および Presto と比較して、XNUMX 倍以上のパフォーマンス向上を実現する最適化が含まれています。
Amazon EMR リリース 6.7 では、以下を使用できるようになりました アマゾン エラスティック コンピューティング クラウド (Amazon EC2) C7g インスタンス。 AWS グラビトン 3 プロセッサ。 これらのインスタンスは、インスタンスのサイズにもよりますが、Amazon EMR で実行する Spark ワークロードの価格性能比を前世代のインスタンスよりも 7.93 ~ 13.35% 向上させます。 この投稿では、価格性能比のメリットをどのように見積もったかについて説明します。
EC2 C7g インスタンスでの Amazon EMR ランタイムのパフォーマンス
C3g インスタンスで Apache Spark (Apache Spark 6.9 と互換性あり) 用の Amazon EMR ランタイムを使用して、Amazon EMR 3.3 で TPC-DS 7 TB ベンチマーククエリを実行しました。 データは次の場所に保存されました Amazon シンプル ストレージ サービス (Amazon S3)、および結果は、前世代のインスタンスファミリーからの同等の C6g クラスターと比較されました。 TPC-DS 3 TB ベンチマーク クエリ全体で、クエリ実行時間の合計とクエリ実行時間の幾何平均を使用して、パフォーマンスの向上を測定しました。
私たちの結果は、インスタンスのサイズに応じて、C13.65g インスタンスを使用した同等の EMR クラスターと比較して、C18.73g を使用した EMR クラスターの合計クエリ ランタイム パフォーマンスが 16.98 ~ 20.28% 向上し、幾何平均が 7 ~ 6% 向上したことを示しました。 コストを比較すると、インスタンスのサイズに応じて、C7.93g を使用した EMR クラスターでは、C13.35g を使用した場合と比較して 7 ~ 6% のコスト削減が見られました。 クエリを実行するのに十分なメモリがなかったため、C6g xlarge インスタンスのベンチマークは行いませんでした。
次の表は、Amazon EMR 3 を使用して TPC-DS 6.9 TB ベンチマーク クエリを実行した結果を、同等の C7g および C6g インスタンス EMR クラスターと比較して示しています。
インスタンスサイズ | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
クラスターの合計サイズ (リーダー 1 つ + コアノード 5 つ) | 6 | 6 | 6 | 6 | 6 |
C6g での合計クエリ実行時間 (秒) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
C7g での合計クエリ実行時間 (秒) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
C7g による総クエリ実行時間の改善 | 視聴者の38%が | 視聴者の38%が | 視聴者の38%が | 視聴者の38%が | 視聴者の38%が |
幾何平均クエリ実行時間 C6g (秒) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
幾何平均クエリ実行時間 C7g (秒) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
C7g による幾何平均クエリ実行時間の改善 | 視聴者の38%が | 視聴者の38%が | 視聴者の38%が | 視聴者の38%が | 視聴者の38%が |
EC2 C6g インスタンスの料金 ($/時間) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
EMR C6g インスタンスの料金 ($/時間) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) インスタンス料金 ($/時間) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
C6g での実行コスト (インスタンスあたりのドル) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
EC2 C7g インスタンスの料金 ($/時間) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
EMR C7g の料金 (インスタンスあたり XNUMX 時間あたりのドル) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) C7g インスタンス料金 ($/時間) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
C7g での実行コスト (インスタンスあたりのドル) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
性能向上を含めたC7gによるトータルコスト削減 | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
次のグラフは、同等の C7g 世代と比較して、C2g 6xlarge インスタンスで観察されたクエリごとの改善を示しています。
ベンチマーク方法論
この投稿で使用されるベンチマークは、業界標準の TPC-DS ベンチマークから派生したものであり、 Spark SQL パフォーマンス テスト GitHub リポジトリ 以下で 修正 適用される。
TCO は、XNUMX 時間あたりのコストにクラスター内のインスタンス数とクラスターでクエリを実行するのにかかった時間を掛けて計算しました。 すべてのインスタンスで、米国東部 (バージニア北部) リージョンのオンデマンド料金を使用しました。
まとめ
この投稿では、同等の前世代のインスタンスを使用する場合と比較して、C7g インスタンスで Amazon EMR を使用することによるコストパフォーマンスの利点をどのように見積もったかについて説明しました。 これらの新しいインスタンスを Amazon EMR で使用すると、コストパフォーマンスがさらに 7 ~ 13% 向上します。
著者について
アル MS アマゾン ウェブ サービスの Amazon EMR のプロダクト マネージャーです。
リョウ・キョンヒョン アマゾン ウェブ サービスの EMR のソフトウェア開発エンジニアです。 彼は主に、社内チームと顧客が生産性を最大化するための自動化ツールの設計と構築に取り組んでいます。 仕事以外では、彼は引退したプロ ゲームの世界チャンピオンであり、今でもビデオ ゲームを楽しんでいます。
玉州太陽 Amazon Web Services の EMR のソフトウェア開発エンジニアです。
スティーブ・クンス アマゾン ウェブ サービスの EMR のエンジニアリング マネージャーです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 視聴者の38%が
- 7
- 9
- a
- 越えて
- NEW
- AI
- すべて
- Amazon
- Amazon EC2
- アマゾンEMR
- Amazon Webサービス
- 分析論
- および
- アパッチ
- Apache Spark
- 適用された
- オートメーション
- なぜなら
- ベンチマーク
- 恩恵
- 建物
- 計算された
- チャンピオン
- クラスタ
- 比べ
- 比較
- 互換性のあります
- 計算
- 基本
- 費用
- コスト削減
- コスト
- Customers
- データ
- によっては
- 派生
- 説明する
- 記載された
- 設計
- 開発
- DID
- 簡単に
- 東
- エンジニア
- エンジニアリング
- 楽しみます
- 同等の
- 推定
- エーテル(ETH)
- 家族
- フォロー中
- フレームワーク
- から
- Games
- 賭博
- 世代
- 世代
- GitHubの
- グラフ
- ハイブ
- 認定条件
- HTTPS
- 改善します
- 改善
- 改善
- 向上させる
- in
- 含ま
- 含めて
- 内部
- IT
- 起動
- リーダー
- マネージド
- マネージャー
- 最大化します
- メモリ
- MS
- 掛け算
- 新作
- ノード
- 数
- オープンソース
- 外側
- パフォーマンス
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 再生
- ポスト
- 前
- ブランド
- 価格設定
- 主に
- プロセッサ
- プロダクト
- プロダクトマネージャー
- 生産性
- プロ
- 提供します
- は、大阪で
- 地域
- リリース
- 結果
- ラン
- ランニング
- 秒
- サービス
- サービス
- 作品
- 簡単な拡張で
- サイズ
- ソフトウェア
- ソフトウェア開発
- スパーク
- SQL
- まだ
- ストレージ利用料
- 保存され
- そのような
- 十分な
- サポート
- テーブル
- チーム
- テスト
- アプリ環境に合わせて
- 時間
- 〜へ
- 豊富なツール群
- トータル
- us
- つかいます
- ビデオ
- ビデオゲーム
- バージニア州
- ウェブ
- Webサービス
- which
- 誰
- 仕事
- 作品
- 世界
- ゼファーネット