EC2 クラスター上の Amazon EMR のキャパシティ管理と Amazon EMR 管理のスケーリングの改善 |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

In 2022で行った新しい機能強化についてお話しました。 AmazonEMRマネージドスケーリングこれにより、クラスターの使用率が向上し、クラスターのコストが削減されました。 2023 年、Amazon EMR チームが熱心に取り組んできたことをご報告できることを嬉しく思います。私たちは顧客の要件から逆算して、EC2 クラスター上の Amazon EMR の容量管理とスケーリングのエクスペリエンスを強化するための複数の新機能をリリースしました。

アマゾンEMR などのオープンソースフレームワークを使用した、ペタバイト規模のデータ処理、インタラクティブ分析、機械学習 (ML) のためのクラウドビッグデータソリューションです。 Apache Spark, ApacheHive, プレストで。お客様からは、大規模で長時間実行されるクラスターを含む EC2 クラスター上の EMR のキャパシティ管理とスケーリングエクスペリエンスをさらに向上させる機能を求められました。私たちはそれらのニーズに応えるために懸命に取り組んできました。主な機能強化の一部を次に示します。

スポットインスタンスのプロビジョニングタイムアウトによる顧客の透明性と柔軟性の強化
インスタンスグループで起動された EC2 クラスター上の Amazon EMR 向けに最適化されたタスクノードのスケールアップ
Spark ドライバーの保護を強化してジョブの復元力を向上

EC2 の新しい Amazon EMR 機能についてさらに詳しく説明しましょう。

スポットインスタンスのプロビジョニングタイムアウトによる顧客の透明性と柔軟性の強化

多くの Amazon EMR 顧客が使用しています EC2 スポットインスタンス EC2 クラスター上の EMR でコストを削減します。スポットインスタンスは予備ですアマゾンエラスティックコンピューティングクラウド (Amazon EC2) コンピューティング容量は、オンデマンド価格と比較して最大 90% 割引で提供されます。 Amazon EMR は、手動または使用してクラスターをスケーリングする機能を提供します。自動スケーリング。あなたも使うことができます AmazonEMRマネージドスケーリングワークロードと使用率に基づいてクラスターのサイズを自動的に変更する機能。

スポットインスタンスを使用してスケールアップする際のカスタマーエクスペリエンスを向上させるために、インスタンスフリートを使用して起動された EC2 クラスター上の EMR に対して、スポットインスタンスのプロビジョニングタイムアウトを指定できるようになりました。プロビジョニングタイムアウトは、クラスターのスケーリング操作中にクラスターが指定された時間しきい値を超えた場合に、スポットインスタンス容量のプロビジョニングを停止するように Amazon EMR に指示します。手動でサイズ変更されるクラスター、または Amazon EMR マネージドスケーリングと Auto Scaling を使用するクラスターのスポットインスタンスプロビジョニングタイムアウトを設定できます。

さらに、透明性を高めるために、タイムアウト期間が経過すると、Amazon EMR はイベントを自動的に送信します。 Amazon CloudWatchイベントストリーム。これらの CloudWatch イベントを使用すると、指定されたパターンに従ってイベントを照合するルールを作成し、イベントをターゲットにルーティングしてアクションを実行できます。詳細については、を参照してください。 Amazon EMR でクラスターのサイズを変更するためのプロビジョニングタイムアウト期間をカスタマイズする.

EC2 クラスター上の Amazon EMR のサイズ変更中にプロビジョニングタイムアウト期間を設定するときのさまざまなシナリオのエクスペリエンスを以下にまとめています。

<span class="notranslate">シナリオ</span>	体験
Amazon EMR は、プロビジョニングタイムアウトが期限切れになる前に、必要なスポット容量をプロビジョニングできます。	Amazon EMR はクラスターを必要な容量まで自動的にスケールアップするため、お客様によるアクションは必要ありません。
Amazon EMR はスポット容量をプロビジョニングできないか、部分的なスポット容量しかプロビジョニングできず、プロビジョニングのタイムアウトが期限切れになっています	Amazon EMR が必要なスポット容量をプロビジョニングできず、プロビジョニングのタイムアウトが期限切れになった場合、Amazon EMR はサイズ変更リクエストをキャンセルし、追加のスポット容量をプロビジョニングする試みを停止します。 Amazon EMR は、イベントを Amazon CloudWatch Events ストリームにも発行します。顧客はこれらのイベントを使用してルールを作成し、適切なアクションを実行できます。
Amazon EC2 がスポットインスタンスを戻す必要があるために、Amazon EMR on EC2 クラスター内のスポットインスタンスが中断された場合	Amazon EMR は、インスタンスをクラスター内の使用可能なタイプのいずれかに置き換えることにより、クラスターのバランスを再調整するための新しいサイズ変更リクエストを自動的にトリガーします。 Amazon EMR は、クラスターで設定されたのと同じプロビジョニングのサイズ変更タイムアウトも使用します。お客様によるアクションは必要ありません。

プロビジョニングのタイムアウト値を指定するときは、容量の可用性の重要性を考慮する必要があります。

ワークロード容量の可用性が重要な場合 – 必要な容量を確実に利用できるようにするには、アプリケーションとアプリケーション SLA の実行にかかる時間に基づいて、サイズ変更プロビジョニングタイムアウトを構成することをお勧めします。たとえば、アプリケーションの SLA が 60 分で、アプリケーションが完了するまでに 30 分かかる場合、サイズ変更プロビジョニングタイムアウトを 30 分以下に設定する必要があります。 Amazon EMR は、タイムアウトが経過する (30 分以内) までスポット容量を取得するためのプロビジョニングを試行し、適切なアクションを実行できるように CloudWatch イベントを発行します。
ワークロードの時間に柔軟性があり、キャパシティの可用性が要因ではない場合 – ワークロードが時間に柔軟であり、容量の可用性が要因ではない場合、目的のスポット容量を取得する可能性を最大限に高めるために、サイズ変更プロビジョニングタイムアウトのタイムアウト値をより高く設定できます。

インスタンスグループで起動された EC2 クラスター上の Amazon EMR 向けに最適化されたタスクノードのスケールアップ

インスタンスグループを使用すると、EC2 クラスターで EMR を起動するための簡単なセットアップが可能になります。インスタンスグループを使用して起動された各クラスターには、最大 50 個のインスタンスグループを含めることができます。つまり、2 つの EC2 インスタンスを含む 48 つのプライマリインスタンスグループ、2 つ以上の ECXNUMX インスタンスを含むコアインスタンスグループ、および最大 XNUMX 個のオプションのタスクインスタンスグループです。 ECXNUMX インスタンスを手動で追加および削除することによって各インスタンスグループをスケーリングすることも、自動スケーリングを設定することもできます。 Amazon EMR マネージドスケーリング機能を使用して、ワークロードと使用率に基づいてクラスターのサイズを自動的に変更することもできます。

Amazon EMR マネージドスケーリングを使用してタスクノードをスケールアップする際の EC2 クラスター上の EMR 上のインスタンスグループのカスタマーエクスペリエンスを強化するために、キャパシティーを獲得する可能性が最も高いタスクインスタンスグループを選択するようにマネージドスケーリングアルゴリズムを強化しました。さらに、マネージドスケーリングが単一のタスクインスタンスグループで容量を獲得できない場合、スケールアップの遅延を減らすために、Amazon EMR は自動的に別のタスクグループに切り替え、複数のタスクインスタンスグループを使用して容量を満たします。したがって、インスタンスの種類を柔軟に設定すればするほど、キャパシティをプロビジョニングできる可能性が高くなります。詳細については、を参照してください。インスタンスとアベイラビリティーゾーンの柔軟性のベストプラクティス.

Spark ドライバーの保護を強化してジョブの復元力を向上

In 2022では、Amazon EMR マネージドスケーリングを使用する際のジョブの復元力を向上させるために、マネージドスケーリングを Spark シャッフルデータ対応に強化しました。これにより、Apache Spark の中間シャッフルデータを保存するインスタンスのスケールダウンが防止されます。これにより、ジョブの再試行や再計算が防止され、パフォーマンスの向上とコストの削減につながります。

Amazon EMR マネージドスケーリングを使用する際のジョブの回復力をさらに向上させるために、Spark ドライバーを認識するようにマネージドスケーリングをさらに強化しました。これにより、クラスターのスケールダウン中に、Amazon EMR マネージドスケーリングは、クラスターを持たないノードのスケールダウンを優先します。それら上で実行されているアクティブな Spark ドライバー。これにより、ジョブの失敗と再試行が最小限に抑えられ、パフォーマンスがさらに向上し、コストが削減されます。この機能強化は、Amazon EMR バージョン 5.34.0 以降および Amazon EMR バージョン 6.4.0 以降を使用する EMR クラスターに対してデフォルトで有効になっています。

クラスター内のどのノードが Spark ドライバーを実行しているかを確認するには、Spark History Server にアクセスしてドライバーをフィルターします。 執行者 Spark アプリケーション ID のタブ。

まとめ

この投稿では、EC2 クラスター上の EMR のキャパシティ管理と Amazon EMR マネージドスケーリングで行われた改善点に焦点を当てました。私たちは、スポットインスタンスをプロビジョニングする際のジョブの復元力の向上、柔軟性と透明性の強化、EC2 クラスター上の Amazon EMR のインスタンスグループでマネージドスケーリングを使用する際のスケールアップエクスペリエンスの最適化に重点を置きました。 2023 年はこれまでに複数の機能をリリースしており、イノベーションのペースは加速し続けていますが、まだ初日にとどまっており、これらの機能が組織にとってより多くの価値を引き出すのにどのように役立つかについて、皆様からのご意見をお待ちしております。ぜひこれらの新機能をお試しいただき、さらにご意見がございましたら AWS アカウントチームを通じてご連絡ください。

著者について

スシャント・マジシア は、AWS の EMR のプリンシパルプロダクトマネージャーです。

アンクル・ゴヤル は、Amazon EMR ビッグデータプラットフォームチームの SDM です。彼は大規模な分散アプリケーションとクラスター最適化アルゴリズムを構築しています。 Ankur は、分析、機械学習、予測のトピックに興味があります。

マシュー・リーム AWS のシニアソリューションアーキテクチャマネージャーです。

タルン・チャナナ は、Amazon EMR ビッグデータプラットフォームチームの SDM です。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。自動車/EV、カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
チャートプライム。 ChartPrime でトレーディングゲームをレベルアップしましょう。こちらからアクセスしてください。
ブロックオフセット。環境オフセット所有権の近代化。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/capacity-management-and-amazon-emr-managed-scaling-improvements-for-amazon-emr-on-ec2-clusters/

タイムスタンプ： 2023 年 9 月 7 日

タイムスタンプ： 2023 年 1 月 25 日

プラトン再発行

新しいジョブ可観測性メトリクスを使用して AWS Glue ジョブのモニタリングとデバッグを強化 | アマゾンウェブサービス

起動スクリプトの Amazon MWAA サポートの新機能 | アマゾンウェブサービス

Amazon QuickSight のスーパーチャージされたピボットテーブル

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー