セマンティックレイクハウスの説明

セマンティックレイクハウスの説明

ソースノード: 1995005

データレイクと セマンティックレイヤー それぞれが独自の壁に囲まれた庭に住んでおり、かなり狭いユースケースと密接に結びついています。 データと分析のインフラストラクチャがクラウドに移行するにつれて、これらの基本的なテクノロジ コンポーネントが最新のデータと分析のスタックにどのように適合するかについて、多くの人が疑問を呈しています。 この記事では、データ レイクハウスとセマンティック レイヤーが一緒になって、データ レイクと分析インフラストラクチャの間の従来の関係を覆す方法について詳しく説明します。 セマンティックレイクハウスがどのように劇的に単純化できるかを学びます クラウド データ アーキテクチャ不要なデータ移動を排除し、タイム トゥ バリューとクラウド コストを削減します。

従来のデータと分析のアーキテクチャ

2006 年、Amazon は、オンプレミスのデータ センターをクラウドにオフロードする新しい方法として、アマゾン ウェブ サービス (AWS) を導入しました。 AWS のコア サービスはそのファイル データ ストアであり、それによって最初のクラウド データ レイクである Amazon S3 が誕生しました。 その後、他のクラウド ベンダーは独自のバージョンのクラウド データ レイク インフラストラクチャを導入しました。

クラウド データ レイクは、その寿命のほとんどの間、愚かで安価な役割に追いやられてきました。 データストレージ - A ステージング データが何か有用なものに処理されるまで、生データの領域。 分析の場合、データ レイクは、最適化された分析プラットフォーム (通常は、OLAP キューブ、Tableau Hyper などの独自のビジネス インテリジェンス (BI) ツール データ抽出、またはPower BI Premium、または上記のすべて。 この処理パターンの結果として、データは少なくとも XNUMX 回保存する必要がありました。 

当然のことながら、従来のクラウド分析アーキテクチャのほとんどは、次の図のようになっています。

画像 1: 従来のデータと分析のスタック

ご覧のとおり、「分析ウェアハウス」は、消費者に分析を提供する機能の大部分を担っています。 このアーキテクチャの問題点は次のとおりです。

  1. データが XNUMX 回保存されるため、コストが増加し、運用が複雑になります。
  2. 分析ウェアハウスのデータはスナップショットです。つまり、データはすぐに古くなります。
  3. 通常、分析ウェアハウス内のデータは、データ レイク内のデータのサブセットであるため、消費者が尋ねることができる質問が制限されます。
  4. 分析ウェアハウスは、クラウド データ プラットフォームとは別個に異なる方法でスケーリングされるため、追加のコスト、セキュリティ上の懸念、および運用の複雑さが生じます。

これらの欠点を考えると、「なぜクラウド データ アーキテクトはこの設計パターンを選択するのか?」と疑問に思うかもしれません。 その答えは、分析の消費者の要求にあります。 データ レイクは理論的には分析クエリを消費者に直接提供できますが、実際には、データ レイクは遅すぎて、一般的な分析ツールと互換性がありません。 

データ レイクだけが分析ウェアハウスの利点を提供でき、データを XNUMX 回保存することを避けることができれば!

データレイクハウスの誕生

「レイクハウス」という用語は、2020 年に重要な Databricks ホワイト ペーパーで初めて登場しました。 「レイクハウスとは?」 Ben Lorica、Michael Armbrust、Reynold Xin、Matei Zaharia、Ali Ghodsi 著。 著者は、データ レイクが単なる静的ファイル ストアではなく、分析を提供するためのエンジンとして機能する可能性があるという考えを導入しました。

データ レイクハウス ベンダーは、データ レイク内の生データ ファイルを操作し、ANSI 標準 SQL インターフェイスを公開する、高速でスケーラブルなクエリ エンジンを導入することで、ビジョンを実現しました。 この重要なイノベーションにより、このアーキテクチャの支持者は、データを複製する必要なく、データ レイクが分析ウェアハウスのように動作できると主張しています。

ただし、分析ウェアハウスは、データ レイクハウス アーキテクチャだけでは満足できない次のような重要な機能を実行することが判明しました。

  1. 幅広いクエリで一貫して「思考速度」クエリ (2 秒未満のクエリ) を提供します。
  2. 消費者が SQL を記述せずに質問できるようにする、ビジネスに適したセマンティック レイヤーを提供します。
  3. クエリ時にデータ ガバナンスとセキュリティを適用する。

したがって、データ レイクハウスが真に分析ウェアハウスに置き換わるには、別の何かが必要です。

セマンティック層の役割

の役割についていろいろ書いてきました。 セマンティックレイヤー 最新のデータ スタックで。 要約すると、セマンティック レイヤーは、データ仮想化テクノロジを活用して物理データをクエリ時にビジネスに適したデータに変換する、ビジネス データの論理ビューです。 

データ レイクハウスの上にセマンティック レイヤー プラットフォームを追加することで、セマンティック レイヤー プラットフォームが次の理由で分析ウェアハウス機能を完全に排除できます。

  1. データ仮想化と自動化されたクエリ パフォーマンス チューニングを使用して、データ レイクハウスで「思考クエリの速度」を実現します。
  2. 各 BI ツールに組み込まれている独自のセマンティック ビューを置き換える、ビジネスに適したセマンティック レイヤーを提供し、ビジネス ユーザーが SQL クエリを記述しなくても質問できるようにします。
  3. クエリ時にデータ ガバナンスとセキュリティを提供します。

セマンティック レイヤー プラットフォームは、データ レイクハウスに欠けている部分を提供します。 セマンティック レイヤーとデータ レイクハウスを組み合わせることで、組織は次のことが可能になります。

  1. データのコピーをなくし、データ パイプラインを簡素化します。
  2. データ ガバナンスとセキュリティを統合します。
  3. ビジネス指標の「信頼できる唯一の情報源」を提供します。
  4. データをデータ レイクに保持することで、運用の複雑さを軽減します。
  5. より多くのデータとよりタイムリーなデータへのアクセスを分析コンシューマーに提供します。
画像 2: セマンティック レイヤーを備えた新しいデータ レイクハウス スタック 

セマンティック レイクハウス: 誰もが勝つ

誰もがこのアーキテクチャで勝利します。 消費者は、待ち時間なしでよりきめ細かいデータにアクセスできます。 IT およびデータ エンジニアリング チームは、移動および変換するデータが少なくなります。 財務部門は、クラウド インフラストラクチャのコストに費やすお金を減らします。 

ご覧のように、セマンティック レイヤーをデータ レイクハウスと組み合わせることで、組織はデータと分析の操作を簡素化し、より多くのデータをより多くの消費者に、より少ないコストでより速く提供できます。

タイムスタンプ:

より多くの データバーシティ