Amazon EMR Managed Scaling の新しい機能強化により、Amazon EMR クラスターのコストを最大 19% 削減

Amazon EMR Managed Scaling の新しい機能強化により、Amazon EMR クラスターのコストを最大 19% 削減

ソースノード: 1985302

2020 年 XNUMX 月、AWS は、 AmazonEMRマネージドスケーリング. EMR マネージド スケーリングでは、クラスターのコンピューティングの最小制限と最大制限を指定すると、Amazon EMR がクラスターのサイズを自動的に変更して、最適なパフォーマンスとリソース使用率を実現します。 EMR マネージド スケーリングは、主要なワークロード関連のメトリクスを常に監視し、最適なリソース使用率のためにクラスター サイズを最適化するアルゴリズムを使用します。 機能が完全に管理されているため、アルゴリズムの改善は、バージョンのアップグレードを必要とせずにすぐに実現されます。 Amazon EMR は、ピーク時にクラスターをスケールアップし、アイドル時に適切にスケールダウンすることで、コストを削減し、最高のパフォーマンスを得るためにクラスター容量を最適化します。

2022 年を通して、EMR マネージド スケーリング アルゴリズムに複数の機能強化を行いました。 これらの改善により、EMR マネージド スケーリングが有効になっているクラスターでは、使用率が最大 15% 向上し、総コストがさらに最大 19% 削減されることがわかりました。 2022 年 5.34.0 月中旬から、Amazon EMR バージョン 6.4.0 以降および Amazon EMR バージョン XNUMX 以降を使用するクラスターの EMR マネージド スケーリングの拡張機能が、新規および既存のクラスターの両方でデフォルトで有効になりました。 さらに、この機能は完全に管理されているため、新しい最適化されたマネージド スケーリング アルゴリズムがデフォルトで取得され、ユーザー側での操作は必要ありません。

以下に、EMR マネージド スケーリングで有効にした主な機能強化の一部を示します。

  • EMR クラスターのターゲットを絞ったスケールダウンによるクラスター使用率の向上
  • を使用して中間シャッフル データを格納するインスタンスのスケールダウンを防止することでコストを削減 Spark Shuffle データ認識
  • EMR クラスターの段階的なスケールアップにより、クラスターの使用率が向上し、コストが削減されます。

お客様の成功事例

強化された EMR マネージド スケーリング アルゴリズムがテクノロジー企業のコスト削減にどのように役立ったか:

例によってコスト削減を説明するために、Amazon EMR を多用して Spark を使用して Kafka と S3 の間でリアルタイムの請求データを処理するテクノロジー企業の EMR クラスターを調べました。 EMR バージョン 5.35 で永続的な EMR クラスターを実行し、EMR マネージド スケーリングを有効にしています。 次の Amazon CloudWatch ダッシュボードは、21 月 XNUMX 日以降、拡張されたマネージド スケーリング アルゴリズムがどのようにプロビジョニングされたかを示しています。 (要求されたノードの合計) わずか 70 ノードと、同様のジョブ プロファイル用に 179 ノードをプロビジョニングした以前のマネージド スケーリング アルゴリズムとの比較です。 ジョブを実行するためにプロビジョニングされるリソースの数が少ないほど、EMR クラスターの総コストが低くなります。

強化された EMR マネージド スケーリング アルゴリズムが広告企業のコスト削減にどのように役立ったか:

また、Amazon EMR をデータ分析戦略に活用し、Spark を使用してバッチ ETL ジョブを実行する広告企業の EMR クラスターについても調べました。 EMR バージョン 6.5 でクラスターを実行し、EMR マネージド スケーリングを有効にしています。 次の Amazon CloudWatch ダッシュボードは、15 月 XNUMX 日以降、拡張マネージド スケーリング アルゴリズムがどのようにプロビジョニングされたかを示しています (要求された合計単位) わずか 41 ノードと、同様のジョブ プロファイル用に 86 ノードをプロビジョニングした以前のマネージド スケーリング アルゴリズムとの比較です。

EMR クラスターのコスト削減と使用率の向上を見積もる:

クラスターのコスト削減:

EMR マネージド スケーリングの機能強化を使用して EMR クラスターの推定コスト削減を表示するには、以下の手順に従ってください。

  • Video Cloud Studioで CloudWatch メトリクス コンソール そして、下 EMR、あなたの ClusterId.
  • EMR で使用可能なメトリクスのリストから、次の XNUMX つのメトリクスを選択します。
    • 実行能力 – マネージド スケーリング ポリシーで指定したユニット タイプに基づいて、「実行中の合計ユニット数」または「実行中の合計ノード数」または「合計 VCPU 実行中 
    • Managed Scaling によって要求される容量 – マネージド スケーリング ポリシーで指定したユニット タイプに基づいて、「要求された合計ユニット数」または「リクエストされたノードの合計数」または「TotalVCPURequested 
  •  両方のメトリクスを CloudWatch ダッシュボードにプロットします。
  • 3 年 2022 月から 2023 年 XNUMX 月までの XNUMX か月間の期間を選択して、以前のマネージド スケーリング アルゴリズムと比較した場合の、強化されたマネージド スケーリング アルゴリズムによる改善を表示します。

クラスター使用率の改善:

EMR マネージド スケーリングの機能強化による EMR クラスターの使用率の改善を見積もるには、以下の手順に従ってください。

  • CloudWatch メトリクス コンソールを開き、 EMR、あなたの ClusterId.
  • EMR で使用可能なメトリクスのリストから、「YARNMemoryAvailablePercentage」 メトリック。
  • YARN が使用するメモリを導出するには、「数学を追加 → 空の式で開始」などの数式を追加します。
    • 新しい数式の場合、設定 ラベル=糸の利用 設定 詳細=100-YARNMemoryAvailablePercentage.
  • クラスター使用率メト​​リクスを CloudWatch ダッシュボードにプロットします。
  • 3 年 2022 月から 2023 年 XNUMX 月までの XNUMX か月間の期間を選択して、以前のマネージド スケーリング アルゴリズムと比較した場合の、強化されたマネージド スケーリング アルゴリズムによる改善を表示します。

次は何ですか

新しい EMR リリースごとに引き続きマネージド スケーリング アルゴリズムを調整し、EMR マネージド スケーリングでクラスターをスケーリングする際のカスタマー エクスペリエンスを向上させます。

まとめ

この投稿では、EMR マネージド スケーリングで開始した主な機能強化の概要を説明しました。 これらの機能強化により、クラスターの使用率が最大 15% 向上し、クラスターのコストが最大 19% 削減されました。 2022 年 5.34.0 月中旬以降、Amazon EMR バージョン 6.4.0 以降および Amazon EMR バージョン XNUMX 以降を使用する EMR クラスターでは、これらの拡張機能がデフォルトで有効になりました。 EMR マネージド スケーリングが完全に管理された機能であることを考えると、新しい最適化された EMR マネージド スケーリング アルゴリズムがデフォルトで取得され、エンドでのアクションは必要ありません。

詳細を確認して EMR マネージド スケーリングを開始するには、次の URL にアクセスしてください。 EMR マネージドスケーリングのドキュメントページ.


著者について

スシャント・マジシア アマゾン ウェブ サービスの EMR のプリンシパル プロダクト マネージャーです。

 ヴィシャル・ヴィアス アマゾン ウェブ サービスの EMR のシニア ソフトウェア エンジニアです。

マシュー・リーム AWS のシニア ソリューション アーキテクチャ マネージャーです。

タイムスタンプ:

より多くの AWSビッグデータ