Apache Gobblin によるデータ管理のスケーリング

プラトン再発行

フォロワー： 0

現代の世界では、ほとんどの企業がビッグデータと分析の力に依存して、成長、戦略的投資、および顧客エンゲージメントを促進しています。ビッグデータは、ターゲットを絞った広告、パーソナライズされたマーケティング、製品の推奨、洞察の生成、価格の最適化、センチメント分析、予測分析などの基本的な要素です。

多くの場合、データは複数のソースから収集され、オンプレミスまたはクラウド上のデータレイクで変換、保存、処理されます。データの最初の取り込みは比較的簡単で、社内で開発されたカスタムスクリプトまたは従来の ETL (Extract Transform Load) ツールを使用して実現できますが、企業が次のことを行う必要があるため、問題はすぐに法外に複雑になり、解決するのに費用がかかります。

データのライフサイクル全体を管理 – ハウスキーピングとコンプライアンスの目的で
ストレージを最適化 – 関連コストを削減
アーキテクチャの簡素化 – コンピューティングインフラストラクチャの再利用による
強力な状態管理により、データを段階的に処理
重複する作業なしに、バッチデータとストリームデータに同じポリシーを適用
最小限の労力でオンプレミスとクラウド間を移行

それはどこですアパッチゴブリン、オープンソースのデータ管理および統合システムが登場します。Apache Gobblin は、ビジネスのニーズに応じて全体または部分的に使用できる比類のない機能を提供します。

このセクションでは、前述の課題に対処するのに役立つ Apache Gobblin のさまざまな機能について詳しく説明します。

完全なデータライフサイクルの管理

Apache Gobblin は、データセットでのデータライフサイクル操作の完全なスイートをサポートするデータパイプラインを構築するためのさまざまな機能を提供します。

データの取り込み – データベース、Rest API、FTP/SFTP サーバー、ファイラー、Salesforce や Dynamics などの CRM など、複数のソースからシンクまで。
Distcp-NG を介して、Hadoop 分散ファイルシステムに特化した機能を備えた複数のデータレイク間でデータをレプリケートします。
データのパージ – 時間ベース、最新の K、バージョン管理、またはポリシーの組み合わせなどの保持ポリシーを使用します。

Gobblin の論理パイプラインは、作業の配分を決定し、「ワークユニット」を作成する「ソース」で構成されています。これらの「ワークユニット」は、抽出、変換、品質チェック、宛先へのデータの書き込みを含む「タスク」として実行するために取得されます。最後のステップである「データの公開」では、パイプラインが正常に実行されたことを検証し、宛先がサポートしている場合は、出力データをアトミックにコミットします。

Apache Gobblin によるデータ管理のスケーリング
著者による画像

ストレージを最適化する

Apache Gobblin は、圧縮またはフォーマット変換による取り込みまたは複製後のデータの後処理を通じて、データに必要なストレージの量を削減するのに役立ちます。

圧縮 – レコードのすべてのフィールドまたはキーフィールドに基づいてデータを後処理して重複排除し、同じキーを持つ最新のタイムスタンプを持つレコードを XNUMX つだけ保持するようにデータをトリミングします。
Avro から ORC へ - 一般的な行ベースの Avro 形式を超最適化された列ベースの ORC 形式に変換する特殊な形式変換メカニズムとして。

Apache Gobblin によるデータ管理のスケーリング
著者による画像

アーキテクチャを簡素化

企業の段階 (スタートアップからエンタープライズまで)、規模の要件、およびそれぞれのアーキテクチャに応じて、企業はデータインフラストラクチャをセットアップまたは進化させることを好みます。 Apache Gobblin は非常に柔軟で、複数の実行モデルをサポートしています。

スタンドアロンモード – ベアメタルボックスでスタンドアロンプロセスとして実行します。つまり、単純なユースケースおよび要求の少ない状況向けの単一ホストです。
MapReduce モード – ペタバイト規模の範囲のデータセットを処理するビッグデータケースの Hadoop インフラストラクチャで MapReduce ジョブとして実行します。
クラスターモード: スタンドアロン – 一連のベアメタルマシンまたはホスト上で Apache Helix および Apache Zookeeper に支えられたクラスターとして実行し、Hadoop MR フレームワークから独立して大規模な処理を処理します。
クラスターモード: Yarn – Hadoop MR フレームワークを使用せずに、ネイティブ Yarn でクラスターとして実行します。
クラスターモード: AWS – Amazon のパブリッククラウドサービスでクラスターとして実行します。 AWS でホストされるインフラストラクチャ用の AWS。

Apache Gobblin によるデータ管理のスケーリング
著者による画像

データを段階的に処理する

複数のデータパイプラインと大容量を伴う大規模なデータは、バッチで時間をかけて処理する必要があります。そのため、データパイプラインが前回中断したところから再開して先に進むことができるように、チェックポイントが必要です。 Apache Gobblin は、ローウォーターマークとハイウォーターマークをサポートし、HDFS、AWS S3、MySQL などのステートストアを介して、より透過的に堅牢な状態管理セマンティクスをサポートします。

Apache Gobblin によるデータ管理のスケーリング
著者による画像

バッチデータとストリームデータに対する同じポリシー

今日のほとんどのデータパイプラインは、バッチデータ用に XNUMX 回、ニアラインデータまたはストリーミングデータ用に XNUMX 回、XNUMX 回書き込む必要があります。労力が XNUMX 倍になり、さまざまな種類のパイプラインに適用されるポリシーとアルゴリズムに矛盾が生じます。 Apache Gobblin は、Gobblin Cluster モード、Gobblin on AWS モード、または Gobblin on Yarn モードで使用されている場合、ユーザーがパイプラインを一度作成し、バッチデータとストリームデータの両方で実行できるようにすることで、これを解決します。

オンプレミスとクラウドの間で移行する

単一のボックス、ノードのクラスター、またはクラウドでオンプレミスで実行できる多目的モードにより、Apache Gobblin はオンプレミスとクラウドに展開して使用できます。そのため、ユーザーはデータパイプラインを一度作成すれば、特定のニーズに基づいて、オンプレミスとクラウドの間で簡単に Gobblin の展開と共にそれらを移行できます。

その非常に柔軟なアーキテクチャ、強力な機能、およびサポートおよび処理できるデータボリュームの極端なスケールにより、Apache Gobblin は、大手テクノロジー企業これは、今日のビッグデータインフラストラクチャの展開に欠かせないものです。

Apache Gobblin とその使用方法の詳細については、次の Web サイトを参照してください。 https://gobblin.apache.org

アブヒシェク・ティワリ LinkedIn のシニアマネージャーであり、同社のビッグデータパイプライン組織を率いています。また、Apache Software Foundation の Apache Gobblin の副社長であり、British Computer Society のフェローでもあります。

このトピックの詳細

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://www.kdnuggets.com/2023/01/scaling-data-management-apache-gobblin.html?utm_source=rss&utm_medium=rss&utm_campaign=scaling-data-management-through-apache-gobblin

タイムスタンプ： 2023 年 1 月 20 日

Python Lambda 関数の説明

ソースクラスター：

KDナゲット

ソースノード： 1870324

タイムスタンプ： 2023 年 1 月 6 日

Apache Gobblin によるデータ管理のスケーリング

プラトン再発行

完全なデータライフサイクルの管理

ストレージを最適化する

アーキテクチャを簡素化

データを段階的に処理する

バッチデータとストリームデータに対する同じポリシー

オンプレミスとクラウドの間で移行する

このトピックの詳細

より多くの KDナゲット

Python Graph Gallery を使用して素晴らしいビジュアライゼーションを作成する

Kaggle コンテストは現実世界の問題に役立ちますか? – KDnuggets

Phi-2: 大きなことを行う小さな LM – KDnuggets

データサイエンスにおける第 3 位のオンライン修士プログラム – KDnuggets でキャリアを前進させましょう

雇用を検討すべきインドのトップ企業 – KDnuggets

Python Lambda 関数の説明

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

完全なデータ ライフサイクルの管理

ストレージを最適化する

アーキテクチャを簡素化

データを段階的に処理する

バッチ データとストリーム データに対する同じポリシー

オンプレミスとクラウドの間で移行する

このトピックの詳細

より多くの KDナゲット

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

完全なデータライフサイクルの管理

バッチデータとストリームデータに対する同じポリシー