データレイクと セマンティックレイヤー それぞれが独自の壁に囲まれた庭に住んでおり、かなり狭いユースケースと密接に結びついています。 データと分析のインフラストラクチャがクラウドに移行するにつれて、これらの基本的なテクノロジ コンポーネントが最新のデータと分析のスタックにどのように適合するかについて、多くの人が疑問を呈しています。 この記事では、データ レイクハウスとセマンティック レイヤーが一緒になって、データ レイクと分析インフラストラクチャの間の従来の関係を覆す方法について詳しく説明します。 セマンティックレイクハウスがどのように劇的に単純化できるかを学びます クラウド データ アーキテクチャ不要なデータ移動を排除し、タイム トゥ バリューとクラウド コストを削減します。
従来のデータと分析のアーキテクチャ
2006 年、Amazon は、オンプレミスのデータ センターをクラウドにオフロードする新しい方法として、アマゾン ウェブ サービス (AWS) を導入しました。 AWS のコア サービスはそのファイル データ ストアであり、それによって最初のクラウド データ レイクである Amazon S3 が誕生しました。 その後、他のクラウド ベンダーは独自のバージョンのクラウド データ レイク インフラストラクチャを導入しました。
クラウド データ レイクは、その寿命のほとんどの間、愚かで安価な役割に追いやられてきました。 データストレージ - A ステージング データが何か有用なものに処理されるまで、生データの領域。 分析の場合、データ レイクは、最適化された分析プラットフォーム (通常は、OLAP キューブ、Tableau Hyper などの独自のビジネス インテリジェンス (BI) ツール データ抽出、またはPower BI Premium、または上記のすべて。 この処理パターンの結果として、データは少なくとも XNUMX 回保存する必要がありました。
当然のことながら、従来のクラウド分析アーキテクチャのほとんどは、次の図のようになっています。
ご覧のとおり、「分析ウェアハウス」は、消費者に分析を提供する機能の大部分を担っています。 このアーキテクチャの問題点は次のとおりです。
- データが XNUMX 回保存されるため、コストが増加し、運用が複雑になります。
- 分析ウェアハウスのデータはスナップショットです。つまり、データはすぐに古くなります。
- 通常、分析ウェアハウス内のデータは、データ レイク内のデータのサブセットであるため、消費者が尋ねることができる質問が制限されます。
- 分析ウェアハウスは、クラウド データ プラットフォームとは別個に異なる方法でスケーリングされるため、追加のコスト、セキュリティ上の懸念、および運用の複雑さが生じます。
これらの欠点を考えると、「なぜクラウド データ アーキテクトはこの設計パターンを選択するのか?」と疑問に思うかもしれません。 その答えは、分析の消費者の要求にあります。 データ レイクは理論的には分析クエリを消費者に直接提供できますが、実際には、データ レイクは遅すぎて、一般的な分析ツールと互換性がありません。
データ レイクだけが分析ウェアハウスの利点を提供でき、データを XNUMX 回保存することを避けることができれば!
データレイクハウスの誕生
「レイクハウス」という用語は、2020 年に重要な Databricks ホワイト ペーパーで初めて登場しました。 「レイクハウスとは?」 Ben Lorica、Michael Armbrust、Reynold Xin、Matei Zaharia、Ali Ghodsi 著。 著者は、データ レイクが単なる静的ファイル ストアではなく、分析を提供するためのエンジンとして機能する可能性があるという考えを導入しました。
データ レイクハウス ベンダーは、データ レイク内の生データ ファイルを操作し、ANSI 標準 SQL インターフェイスを公開する、高速でスケーラブルなクエリ エンジンを導入することで、ビジョンを実現しました。 この重要なイノベーションにより、このアーキテクチャの支持者は、データを複製する必要なく、データ レイクが分析ウェアハウスのように動作できると主張しています。
ただし、分析ウェアハウスは、データ レイクハウス アーキテクチャだけでは満足できない次のような重要な機能を実行することが判明しました。
- 幅広いクエリで一貫して「思考速度」クエリ (2 秒未満のクエリ) を提供します。
- 消費者が SQL を記述せずに質問できるようにする、ビジネスに適したセマンティック レイヤーを提供します。
- クエリ時にデータ ガバナンスとセキュリティを適用する。
したがって、データ レイクハウスが真に分析ウェアハウスに置き換わるには、別の何かが必要です。
セマンティック層の役割
の役割についていろいろ書いてきました。 セマンティックレイヤー 最新のデータ スタックで。 要約すると、セマンティック レイヤーは、データ仮想化テクノロジを活用して物理データをクエリ時にビジネスに適したデータに変換する、ビジネス データの論理ビューです。
データ レイクハウスの上にセマンティック レイヤー プラットフォームを追加することで、セマンティック レイヤー プラットフォームが次の理由で分析ウェアハウス機能を完全に排除できます。
- データ仮想化と自動化されたクエリ パフォーマンス チューニングを使用して、データ レイクハウスで「思考クエリの速度」を実現します。
- 各 BI ツールに組み込まれている独自のセマンティック ビューを置き換える、ビジネスに適したセマンティック レイヤーを提供し、ビジネス ユーザーが SQL クエリを記述しなくても質問できるようにします。
- クエリ時にデータ ガバナンスとセキュリティを提供します。
セマンティック レイヤー プラットフォームは、データ レイクハウスに欠けている部分を提供します。 セマンティック レイヤーとデータ レイクハウスを組み合わせることで、組織は次のことが可能になります。
- データのコピーをなくし、データ パイプラインを簡素化します。
- データ ガバナンスとセキュリティを統合します。
- ビジネス指標の「信頼できる唯一の情報源」を提供します。
- データをデータ レイクに保持することで、運用の複雑さを軽減します。
- より多くのデータとよりタイムリーなデータへのアクセスを分析コンシューマーに提供します。
セマンティック レイクハウス: 誰もが勝つ
誰もがこのアーキテクチャで勝利します。 消費者は、待ち時間なしでよりきめ細かいデータにアクセスできます。 IT およびデータ エンジニアリング チームは、移動および変換するデータが少なくなります。 財務部門は、クラウド インフラストラクチャのコストに費やすお金を減らします。
ご覧のように、セマンティック レイヤーをデータ レイクハウスと組み合わせることで、組織はデータと分析の操作を簡素化し、より多くのデータをより多くの消費者に、より少ないコストでより速く提供できます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://www.dataversity.net/the-semantic-lakehouse-explained/
- :は
- 1
- 2020
- a
- 私たちについて
- 上記の.
- アクセス
- NEW
- すべて
- ことができます
- 一人で
- Amazon
- Amazon Webサービス
- Amazon Webサービス(AWS)
- 分析的
- 分析論
- および
- 回答
- 建築
- です
- AREA
- 主張する
- 周りに
- 記事
- AS
- At
- 著者
- 自動化
- AWS
- BE
- なぜなら
- 以下
- 利点
- の間に
- 生まれる
- ビジネス
- ビジネス・インテリジェンス
- by
- 缶
- 例
- センター
- 挑戦
- 安い
- 選択する
- クラウド
- クラウドインフラ
- 結合
- 複雑さ
- コンポーネント
- 懸念事項
- 消費者
- コピー
- 基本
- 費用
- コスト
- 可能性
- 結合しました
- 作成します。
- データ
- データセンター
- データレイク
- データウェアハウス
- データブリック
- データバーシティ
- 配信する
- 配信
- 配信する
- 提供します
- 需要
- 設計
- 直接に
- 劇的に
- 欠点
- 各
- どちら
- 排除する
- 埋め込まれた
- エンジン
- エンジニアリング
- エンジン
- 説明
- 抽出物
- かなり
- 速いです
- 摂食
- File
- ファイナンス
- 名
- フィット
- 次
- フォーム
- から
- 機能
- ガーデン
- 取得する
- ガバナンス
- 持ってる
- ハイ
- 開催
- 認定条件
- HTML
- HTTPS
- アイデア
- in
- 含めて
- 増加
- インフラ
- 革新的手法
- インテリジェンス
- インタフェース
- 紹介する
- 導入
- 導入
- IT
- ITS
- 保管
- キー
- 湖
- レイテンシ
- 層
- LEARN
- レバレッジ
- 生活
- ような
- 制限
- 生活
- 論理的な
- 長い
- 長い時間
- 見て
- のように見える
- たくさん
- 大多数
- 多くの
- 最大幅
- 手段
- メトリック
- Michael Liebreich
- かもしれない
- 行方不明
- モダン
- お金
- 他には?
- 最も
- 運動
- 必要
- 必要とされる
- 必要
- 新作
- of
- on
- オペレーショナル
- 業務執行統括
- 最適化
- 組織
- その他
- 自分の
- パターン
- パフォーマンス
- 実行する
- 物理的な
- ピース
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 再生
- 人気
- 電力
- Power BI
- 練習
- プレミアム
- 問題
- 処理
- 所有権
- 質問
- 範囲
- Raw
- 生データ
- 減らします
- 関係
- replace
- 責任
- 結果
- 職種
- 満足
- ド電源のデ
- 秤
- 秒
- セキュリティ
- 役立つ
- サービス
- サービス
- 簡素化する
- 遅く
- Snapshot
- 何か
- ソース
- スピード
- SQL
- スタック
- 標準
- 店舗
- 保存され
- まとめる
- タブロー
- チーム
- テクノロジー
- それ
- アプリ環境に合わせて
- ボーマン
- 考え
- しっかり
- 時間
- 〜へ
- 一緒に
- あまりに
- ツール
- 豊富なツール群
- top
- 伝統的な
- 最適化の適用
- 翻訳する
- Twice
- 一般的に
- 下
- つかいます
- users
- 値
- ベンダー
- 詳しく見る
- ビュー
- ビジョン
- 極めて重要な
- 囲まれた
- 倉庫
- 仕方..
- ウェブ
- Webサービス
- which
- while
- 白
- ワイド
- 広い範囲
- 意志
- 勝
- 無し
- 仕事
- でしょう
- 書きます
- 書かれた
- ゼファーネット