AWS ProServe Hadoop Migration Delivery Kit TCO ツールの詳細

プラトン再発行

フォロワー： 0

ポストで AWS ProServe Hadoop Migration Delivery Kit TCO ツールの紹介では、AWS ProServe Hadoop Migration Delivery Kit (HMDK) TCO ツールと、オンプレミスの Hadoop ワークロードをアマゾンEMR. この投稿では、ログの取り込み、変換、視覚化、アーキテクチャ設計から TCO を計算するまでのすべての手順を説明しながら、ツールを深く掘り下げます。

ソリューションの概要

HMDK TCO ツールの主な機能を簡単に見てみましょう。このツールは、Hadoop Resource Manager に接続して YARN ログを収集するための YARN ログコレクターを提供します。 YARN ログアナライザーと呼ばれる Python ベースの Hadoop ワークロードアナライザーは、Hadoop アプリケーションを精査します。アマゾンクイックサイトダッシュボードには、アナライザーからの結果が表示されます。同じ結果により、将来の EMR インスタンスの設計も加速します。さらに、TCO 計算機は、移行を容易にするために最適化された EMR クラスターの TCO 見積もりを生成します。

それでは、ツールがどのように機能するかを見てみましょう。次の図は、エンドツーエンドのワークフローを示しています。

次のセクションでは、ツールの XNUMX つの主な手順について説明します。

YARN ジョブ履歴ログを収集します。
ジョブ履歴ログを JSON から CSV に変換します。
ジョブ履歴ログを分析します。
移行用の EMR クラスターを設計します。
TCO を計算します。

前提条件

開始する前に、次の前提条件を満たしていることを確認してください。

クローン hadoop-migration-assessment-tco リポジトリ.
ローカルマシンに Python 3 をインストールします。
アクセス許可のある AWS アカウントを持っている AWSラムダ、QuickSight (エンタープライズ版)、および AWS CloudFormation.

YARN ジョブ履歴ログを収集する

まず、実行します YARN ログコレクター、start-collector.sh、ローカルマシン上。このステップでは、Hadoop YARN ログを収集し、ログをローカルマシンに配置します。このスクリプトは、ローカルマシンを Hadoop プライマリノードに接続し、Resource Manager と通信します。次に、YARN ResourceManager アプリケーション API を呼び出して、ジョブ履歴情報 (アプリケーションマネージャーからの YARN ログ) を取得します。

YARN ログコレクターを実行する前に、接続 (HTTP: 8088 または HTTPS: 8090; 後者を推奨) を構成して確立し、YARN ResourceManager と有効な YARN Timeline Server (Timeline Server v1 以降がサポートされている) のアクセス可能性を確認する必要があります。）。 YARN ログの収集間隔と保持ポリシーを定義する必要がある場合があります。連続した YARN ログを確実に収集するには、cron ジョブを使用して、適切な時間間隔でログコレクターをスケジュールします。たとえば、毎日 2,000 個のアプリケーションがあり、yarn.resourcemanager.max-completed-applications が 1,000 に設定されている Hadoop クラスターの場合、理論的には、ログコレクターを少なくとも 7 回実行して、すべての YARN ログを取得する必要があります。さらに、全体的なワークロードを分析するために、少なくとも XNUMX 日間の YARN ログを収集することをお勧めします。

ログコレクターの構成およびスケジュール方法の詳細については、 yarn-log-collector GitHub リポジトリ.

YARN ジョブ履歴ログを JSON から CSV に変換する

YARN ログを取得したら、YARN ログオーガナイザである yarn-log-organizer.py を実行します。これは、JSON ベースのログを CSV ファイルに変換するパーサーです。これらの出力 CSV ファイルは、YARN ログアナライザーの入力です。パーサーには、時間によるイベントの並べ替え、専用の削除、複数のログのマージなど、他の機能もあります。

YARN ログオーガナイザーの使用方法の詳細については、 yarn-log-organizer GitHub リポジトリ.

YARN ジョブ履歴ログを分析する

次に、YARN ログアナライザーを起動して、YARN ログを CSV 形式で分析します。

QuickSight を使用すると、YARN ログデータを視覚化し、事前に構築されたダッシュボードテンプレートとウィジェットによって生成されたデータセットに対して分析を実行できます。ウィジェットは、CloudFormation テンプレートで設定されたターゲット AWS アカウントに QuickSight ダッシュボードを自動的に作成します。

次の図は、HMDK TCO アーキテクチャを示しています。

YARN ログアナライザーは、次の XNUMX つの主要な機能を提供します。

変換された YARN ジョブ履歴ログを CSV 形式でアップロードします (たとえば、 cluster_yarn_logs_*.csv）へ Amazon シンプルストレージサービス (Amazon S3) バケット。これらの CSV ファイルは、YARN ログオーガナイザーからの出力です。

マニフェスト JSON ファイルを作成します (たとえば、 yarn-log-manifest.json) を QuickSight 用に作成し、S3 バケットにアップロードします。

{ "fileLocations": [ { "URIPrefixes": [ "s3://emr-tco-date-bucket/yarn-log/demo/logs/"] } ], "globalUploadSettings": { "format": "CSV", "delimiter": ",", "textqualifier": "'", "containsHeader": "true" } }

YAML 形式の CloudFormation テンプレートを使用して、QuickSight ダッシュボードをデプロイします。デプロイ後、スタックのステータスが次のように表示されるまで、更新アイコンを選択します。 CREATE_COMPLETE. このステップでは、AWS ターゲットアカウントの QuickSight ダッシュボードにデータセットを作成します。
QuickSight ダッシュボードでは、分析された Hadoop ワークロードの洞察をさまざまなグラフから見つけることができます。これらの洞察は、次のステップで示すように、移行を加速するための将来の EMR インスタンスを設計するのに役立ちます。

移行用の EMR クラスターを設計する

YARN ログアナライザーの結果は、既存のシステムの実際の Hadoop ワークロードを理解するのに役立ちます。このステップは、 Excelテンプレート. テンプレートには、ワークロード分析とキャパシティプランニングを実施するためのチェックリストが含まれています。

クラスターで実行されているアプリケーションは、現在の容量で適切に使用されていますか?
特定の時間にクラスターに負荷がかかっているかどうか。もしそうなら、いつですか？
クラスターで実行されているアプリケーションとエンジン (MR、TEZ、Spark など) の種類と、各種類のリソース使用量は?
異なるジョブの実行サイクル (リアルタイム、バッチ、アドホック) が XNUMX つのクラスターで実行されていますか?
定期的なバッチで実行されているジョブはありますか? その場合、これらのスケジュール間隔はどのくらいですか? (例: 10 分ごと、1 時間ごと、1 日ごと) 長時間にわたって多くのリソースを使用するジョブはありませんか?
パフォーマンスの改善が必要なジョブはありますか?
クラスターを独占している特定の組織または個人はいますか?
XNUMX つのクラスター内で開発と運用が混在するジョブはありますか?

チェックリストを完了すると、将来のアーキテクチャを設計する方法をよりよく理解できるようになります。 EMR クラスターの費用対効果を最適化するために、次の表は適切なタイプの EMR クラスターを選択するための一般的なガイドラインを示しています。アマゾンエラスティックコンピューティングクラウド (Amazon EC2) ファミリー。

適切なクラスタータイプとインスタンスファミリーを選択するには、さまざまな基準に基づいて YARN ログに対して数回の分析を実行する必要があります。いくつかの重要な指標を見てみましょう。

タイムライン

時間枠内で実行される Hadoop アプリケーションの数に基づいて、ワークロードパターンを見つけることができます。たとえば、日別または時間別のチャート「Count of Records by Startedtime」は、次の洞察を提供します。

日次時系列グラフでは、稼働日と休日の間、および暦日間のアプリケーション実行数を比較します。数値が類似している場合は、クラスターの XNUMX 日あたりの使用率が同等であることを意味します。一方、偏差が大きい場合は、アドホックジョブの割合が大きくなります。また、特定の日に可能な週次または月次のジョブを把握することもできます。このような状況では、ワークロードが集中している週または月の特定の日を簡単に確認できます。
時間単位の時系列グラフでは、時間単位のウィンドウでアプリケーションがどのように実行されるかをさらに理解できます。 XNUMX 日のピーク時間とオフピーク時間を見つけることができます。

ユーザー

YARN ログには、各アプリケーションのユーザー ID が含まれています。この情報は、誰がアプリケーションをキューに送信したかを理解するのに役立ちます。キューごとおよびユーザーごとの個別および集約されたアプリケーション実行の統計に基づいて、ユーザーごとの既存のワークロード分散を判断できます。通常、同じチームのユーザーはキューを共有しています。複数のチームがキューを共有している場合があります。ユーザーのキューを設計するときに、以前よりもキュー間でよりバランスの取れたアプリケーションワークロードを設計および分散するのに役立つ洞察が得られます。

アプリケーションの種類

さまざまなアプリケーションタイプ (Hive、Spark、Presto、HBase など) に基づいてワークロードをセグメント化し、エンジン (MR、Spark、Tez など) を実行できます。 MapReduce や Hive-on-MR ジョブなどのコンピューティング負荷の高いワークロードには、CPU 最適化インスタンスを使用します。 Hive-on-TEZ、Presto、Spark ジョブなどのメモリ集約型ワークロードの場合は、メモリ最適化インスタンスを使用します。

経過時間

アプリケーションをランタイム別に分類できます。埋め込まれた CloudFormation テンプレートは、QuickSight ダッシュボードに経過グループフィールドを自動的に作成します。これにより、QuickSight ダッシュボードの XNUMX つのグラフのいずれかで長時間実行ジョブを観察できる重要な機能が有効になります。したがって、これらの大規模なジョブに合わせた将来のアーキテクチャを設計できます。

対応する QuickSight ダッシュボードには XNUMX つのグラフが含まれています。 XNUMX つのグループに関連付けられている各グラフをドリルダウンできます。

グループ数	ジョブの実行時間/経過時間
1	10分未満
2	10分から30分の間
3	30分から1時間の間
4	1時間以上

グループ 4 のグラフでは、ユーザー、キュー、アプリケーションの種類、タイムライン、リソースの使用状況など、さまざまなメトリックに基づいて大規模なジョブを精査することに集中できます。この考慮事項に基づいて、クラスターまたは大規模なジョブ専用の EMR クラスターに専用のキューを設定できます。その間、小さなジョブを共有キューに送信できます。

リソース

リソース (CPU、メモリ) の消費パターンに基づいて、パフォーマンスと費用対効果のために EC2 インスタンスの適切なサイズとファミリーを選択します。計算負荷の高いアプリケーションについては、CPU 最適化ファミリーのインスタンスをお勧めします。メモリを集中的に使用するアプリケーションの場合は、メモリ最適化インスタンスファミリーをお勧めします。

さらに、アプリケーションのワークロードの性質と経時的なリソース使用率に基づいて、永続的または一時的な EMR クラスターを選択できます。 EKS上のAmazonEMRまたは Amazon EMR サーバーレス.

YARN ログをさまざまなメトリクスで分析したら、将来の EMR アーキテクチャを設計する準備が整います。次の表に、提案されている EMR クラスターの例を示します。詳細については、 optimized-tco-calculator GitHub リポジトリ.

TCO の計算

最後に、ローカルマシンで tco-input-generator.py を実行して YARN ジョブ履歴ログを XNUMX 時間ごとに集計してから、Excel テンプレートを使用して最適化された TCO を計算します。結果は将来の EMR インスタンスの Hadoop ワークロードをシミュレートするため、このステップは非常に重要です。

TCO シミュレーションの前提条件は、実行することです。 tco-input-generator.py、2 時間ごとに集計されたログを生成します。次に、Excel テンプレートファイルを開いてマクロを有効にし、TCO を計算するために緑色のセルに入力を提供します。入力データについては、レプリケーションなしの実際のデータサイズと、Hadoop のプライマリノードとデータノードのハードウェア仕様 (vCore、mem) を入力します。また、以前に生成された時間ごとの集計ログを選択してアップロードする必要があります。リージョン、EC2 タイプ、Amazon EMR 高可用性、エンジン効果、Amazon EC3 および Amazon EBS 割引 (EDP)、Amazon S2 ボリューム割引、現地通貨レート、EMR EC2 タスク/コア料金比率などの TCO シミュレーション変数を設定した後TCO シミュレーターは、Amazon ECXNUMX の将来の EMR インスタンスの最適なコストを自動的に計算します。次のスクリーンショットは、HMDK TCO の結果の例を示しています。

HMDK TCO 計算の追加情報と手順については、 optimized-tco-calculator GitHub リポジトリ.

クリーンアップ

すべての手順を完了してテストを終了したら、次の手順を実行してリソースを削除し、コストが発生しないようにします。

AWS CloudFormation コンソールで、作成したスタックを選択します。
選択する削除.
選択する スタックを削除.
ステータスが表示されるまでページを更新します DELETE_COMPLETE.
Amazon S3 コンソールで、作成した S3 バケットを削除します。

まとめ

AWS ProServe HMDK TCO ツールは、Hadoop ワークロードを評価するための時間のかかる困難なタスクである移行計画の作業を大幅に削減します。 HMDK TCO ツールを使用した場合、評価には通常 2 ～ 3 週間かかります。また、将来の EMR アーキテクチャの計算された TCO を決定することもできます。 HMDK TCO ツールを使用すると、ワークロードとリソースの使用パターンをすばやく理解できます。ツールによって生成された洞察により、最適な将来の EMR アーキテクチャを設計する準備が整います。多くのユースケースでは、最適化されたリファクタリングされたアーキテクチャの 1 年間の TCO は、リフトアンドシフトの Hadoop 移行と比較して、コンピューティングとストレージの大幅なコスト削減 (64 ～ 80% の削減) を提供します。

Hadoop の Amazon EMR および HMDK CTO ツールへの移行を加速する方法の詳細については、 Hadoop 移行デリバリーキット TCO GitHub リポジトリ、または連絡先 AWS-HMDK@amazon.com.

著者について

ソンギョル公園 AWS ProServe のシニアプラクティスマネージャーです。彼は、AWS アナリティクス、IoT、および AI/ML サービスを使用して顧客がビジネスを革新するのを支援しています。彼はビッグデータサービスとテクノロジを専門とし、顧客のビジネス成果を一緒に構築することに関心を持っています。

キム・ジソン AWS ProServe のシニアデータアーキテクトです。彼は主に企業顧客と協力してデータレイクの移行とモダナイゼーションを支援し、Hadoop、Spark、データウェアハウジング、リアルタイムデータ処理、大規模な機械学習などのビッグデータプロジェクトに関するガイダンスと技術支援を提供しています。また、テクノロジーを適用してビッグデータの問題を解決し、適切に設計されたデータアーキテクチャを構築する方法も理解しています。

ジョージ・チャオ AWS ProServe のシニアデータアーキテクトです。彼は、AWS のお客様と協力して最新のデータソリューションを提供する経験豊富な分析リーダーです。彼は ProServe Amazon EMR ドメインスペシャリストでもあり、Hadoop から Amazon EMR への移行のベストプラクティスと配信キットについて ProServe コンサルタントをサポートしています。彼の関心分野は、データレイクとクラウドの最新データアーキテクチャ配信です。

カレン・チャン AWS のパートナーデータおよび分析のグローバルセグメントテックリードでした。データと分析の信頼できるアドバイザーとして、彼女はデータ変換のための戦略的イニシアチブをキュレートし、データと分析のワークロードの移行とモダナイゼーションプログラムを主導し、大規模なパートナーとの顧客移行プロセスを加速しました。彼女は、分散システム、エンタープライズデータ管理、高度な分析、および大規模な戦略的イニシアチブを専門としています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/deep-dive-into-the-aws-proserve-hadoop-migration-delivery-kit-tco-tool/

タイムスタンプ： 2023 年 2 月 6 日

タイムスタンプ： 2023 年 9 月 20 日

プラトン再発行

バッファーのデブローティングと整列されていないチェックポイントを使用して、Apache Flink アプリケーション用の Amazon マネージドサービスのチェックポイント設定を最適化する – パート 1 | アマゾンウェブサービス

Amazon S3 イベント通知と AWS Step Functions を使用して Amazon Redshift の ETL プロセスを構築する | アマゾンウェブサービス

UDF と AWS Lambda を使用して Amazon Athena の地理空間クエリを拡張する

トランザクションデータレイクからデータウェアハウスにデータを段階的にロードする | アマゾンウェブサービス

Amazon MWAA での共有 VPC サポートの導入 | アマゾンウェブサービス

オープンソース JDBC コネクタを使用した Amazon MSK Connect でデータをストリーミングする | アマゾンウェブサービス

AWS Glue インタラクティブセッションで視覚化を探索する | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー