Apache Gobblin によるデータ管理のスケーリング

Apache Gobblin によるデータ管理のスケーリング

ソースノード: 1911501

現代の世界では、ほとんどの企業がビッグデータと分析の力に依存して、成長、戦略的投資、および顧客エンゲージメントを促進しています。 ビッグデータは、ターゲットを絞った広告、パーソナライズされたマーケティング、製品の推奨、洞察の生成、価格の最適化、センチメント分析、予測分析などの基本的な要素です。 

多くの場合、データは複数のソースから収集され、オンプレミスまたはクラウド上のデータ レイクで変換、保存、処理されます。 データの最初の取り込みは比較的簡単で、社内で開発されたカスタム スクリプトまたは従来の ETL (Extract Transform Load) ツールを使用して実現できますが、企業が次のことを行う必要があるため、問題はすぐに法外に複雑になり、解決するのに費用がかかります。

  1. データのライフサイクル全体を管理 – ハウスキーピングとコンプライアンスの目的で 
  2. ストレージを最適化 – 関連コストを削減 
  3. アーキテクチャの簡素化 – コンピューティング インフラストラクチャの再利用による 
  4. 強力な状態管理により、データを段階的に処理 
  5. 重複する作業なしに、バッチ データとストリーム データに同じポリシーを適用
  6. 最小限の労力でオンプレミスとクラウド間を移行  

それはどこです アパッチゴブリン、オープンソースのデータ管理および統合システムが登場します。Apache Gobblin は、ビジネスのニーズに応じて全体または部分的に使用できる比類のない機能を提供します。 

このセクションでは、前述の課題に対処するのに役立つ Apache Gobblin のさまざまな機能について詳しく説明します。

完全なデータ ライフサイクルの管理

Apache Gobblin は、データセットでのデータ ライフサイクル操作の完全なスイートをサポートするデータ パイプラインを構築するためのさまざまな機能を提供します。 

  1. データの取り込み – データベース、Rest API、FTP/SFTP サーバー、ファイラー、Salesforce や Dynamics などの CRM など、複数のソースからシンクまで。 
  2. Distcp-NG を介して、Hadoop 分散ファイル システムに特化した機能を備えた複数のデータ レイク間でデータをレプリケートします。 
  3. データのパージ – 時間ベース、最新の K、バージョン管理、またはポリシーの組み合わせなどの保持ポリシーを使用します。 

Gobblin の論理パイプラインは、作業の配分を決定し、「ワークユニット」を作成する「ソース」で構成されています。 これらの「ワークユニット」は、抽出、変換、品質チェック、宛先へのデータの書き込みを含む「タスク」として実行するために取得されます。 最後のステップである「データの公開」では、パイプラインが正常に実行されたことを検証し、宛先がサポートしている場合は、出力データをアトミックにコミットします。
 

Apache Gobblin によるデータ管理のスケーリング
著者による画像

ストレージを最適化する

Apache Gobblin は、圧縮またはフォーマット変換による取り込みまたは複製後のデータの後処理を通じて、データに必要なストレージの量を削減するのに役立ちます。 

  1. 圧縮 – レコードのすべてのフィールドまたはキー フィールドに基づいてデータを後処理して重複排除し、同じキーを持つ最新のタイムスタンプを持つレコードを XNUMX つだけ保持するようにデータをトリミングします。
  2. Avro から ORC へ - 一般的な行ベースの Avro 形式を超最適化された列ベースの ORC 形式に変換する特殊な形式変換メカニズムとして。 

 

Apache Gobblin によるデータ管理のスケーリング
著者による画像

アーキテクチャを簡素化 

企業の段階 (スタートアップからエンタープライズまで)、規模の要件、およびそれぞれのアーキテクチャに応じて、企業はデータ インフラストラクチャをセットアップまたは進化させることを好みます。 Apache Gobblin は非常に柔軟で、複数の実行モデルをサポートしています。

  1. スタンドアロン モード – ベア メタル ボックスでスタンドアロン プロセスとして実行します。つまり、単純なユース ケースおよび要求の少ない状況向けの単一ホストです。 
  2. MapReduce モード – ペタバイト規模の範囲のデータセットを処理するビッグ データ ケースの Hadoop インフラストラクチャで MapReduce ジョブとして実行します。 
  3. クラスター モード: スタンドアロン – 一連のベア メタル マシンまたはホスト上で Apache Helix および Apache Zookeeper に支えられたクラスターとして実行し、Hadoop MR フレームワークから独立して大規模な処理を処理します。
  4. クラスター モード: Yarn – Hadoop MR フレームワークを使用せずに、ネイティブ Yarn でクラスターとして実行します。 
  5. クラスター モード: AWS – Amazon のパブリック クラウド サービスでクラスターとして実行します。 AWS でホストされるインフラストラクチャ用の AWS。 

 

Apache Gobblin によるデータ管理のスケーリング
著者による画像

データを段階的に処理する 

複数のデータ パイプラインと大容量を伴う大規模なデータは、バッチで時間をかけて処理する必要があります。 そのため、データ パイプラインが前回中断したところから再開して先に進むことができるように、チェックポイントが必要です。 Apache Gobblin は、ロー ウォーターマークとハイ ウォーターマークをサポートし、HDFS、AWS S3、MySQL などのステート ストアを介して、より透過的に堅牢な状態管理セマンティクスをサポートします。 

 

Apache Gobblin によるデータ管理のスケーリング
著者による画像

バッチ データとストリーム データに対する同じポリシー

今日のほとんどのデータ パイプラインは、バッチ データ用に XNUMX 回、ニアライン データまたはストリーミング データ用に XNUMX 回、XNUMX 回書き込む必要があります。 労力が XNUMX 倍になり、さまざまな種類のパイプラインに適用されるポリシーとアルゴリズムに矛盾が生じます。 Apache Gobblin は、Gobblin Cluster モード、Gobblin on AWS モード、または Gobblin on Yarn モードで使用されている場合、ユーザーがパイプラインを一度作成し、バッチ データとストリーム データの両方で実行できるようにすることで、これを解決します。  

オンプレミスとクラウドの間で移行する 

単一のボックス、ノードのクラスター、またはクラウドでオンプレミスで実行できる多目的モードにより、Apache Gobblin はオンプレミスとクラウドに展開して使用できます。 そのため、ユーザーはデータ パイプラインを一度作成すれば、特定のニーズに基づいて、オンプレミスとクラウドの間で簡単に Gobblin の展開と共にそれらを移行できます。 

その非常に柔軟なアーキテクチャ、強力な機能、およびサポートおよび処理できるデータ ボリュームの極端なスケールにより、Apache Gobblin は、 大手テクノロジー企業 これは、今日のビッグ データ インフラストラクチャの展開に欠かせないものです。

Apache Gobblin とその使用方法の詳細については、次の Web サイトを参照してください。 https://gobblin.apache.org
 
 
アブヒシェク・ティワリ LinkedIn のシニア マネージャーであり、同社のビッグ データ パイプライン組織を率いています。 また、Apache Software Foundation の Apache Gobblin の副社長であり、British Computer Society のフェローでもあります。
 

タイムスタンプ:

より多くの KDナゲット