语义湖屋解释

语义湖屋解释

源节点: 1995005

数据湖和 语义层 已经存在了很长时间——每个人都住在自己的围墙花园里,与相当狭窄的用例紧密耦合。 随着数据和分析基础架构迁移到云端,许多人都在挑战这些基础技术组件如何适应现代数据和分析堆栈。 在本文中,我们将深入探讨数据湖屋和语义层如何共同颠覆数据湖和分析基础设施之间的传统关系。 我们将了解语义湖屋如何显着简化 云数据架构,消除不必要的数据移动,并减少价值实现时间和云成本。

传统数据和分析架构

2006 年,Amazon 推出了 Amazon Web Services (AWS) 作为将本地数据中心卸载到云端的新方法。 AWS 的一项核心服务是其文件数据存储,第一个云数据湖 Amazon S3 随之诞生。 此后,其他云供应商将推出自己版本的云数据湖基础设施。

在其生命的大部分时间里,云数据湖一直扮演着愚蠢、廉价的角色 数据存储 - 一个 分期 原始数据的区域,直到数据可以被处理成有用的东西。 对于分析,数据湖充当数据的保存笔,直到可以将其复制并加载到优化的分析平台中,通常是关系云数据仓库,提供 OLAP 多维数据集、专有商业智能 (BI) 工具数据提取,如 Tableau Hyper 或Power BI Premium,或以上所有。 由于这种处理模式,数据需要至少存储两次,一次以原始形式存储,一次以“分析优化”形式存储。 

毫不奇怪,大多数传统的云分析架构如下图所示:

图 1:传统数据和分析堆栈

如您所见,“分析仓库”负责向消费者提供分析的大部分功能。 这种架构的问题如下:

  1. 数据存储两次,这会增加成本并造成操作复杂性。
  2. 分析仓库中的数据是快照,这意味着数据立即过时。
  3. 分析仓库中的数据通常是数据湖中数据的子集,这限制了消费者可以提出的问题。
  4. 分析仓库的扩展与云数据平台不同,会带来额外的成本、安全问题和操作复杂性。

鉴于这些缺点,您可能会问“为什么云数据架构师会选择这种设计模式?” 答案在于分析消费者的需求。 虽然数据湖在理论上可以直接向消费​​者提供分析查询,但实际上,数据湖速度太慢并且与流行的分析工具不兼容。 

如果只有数据湖能够提供分析仓库的好处,我们就可以避免重复存储数据!

Data Lakehouse 的诞生

“Lakehouse”一词于 2020 年随着开创性的 Databricks 白皮书首次亮相 “什么是湖屋?” 作者:Ben Lorica、Michael Armbrust、Reynold Xin、Matei Zaharia 和 Ali Ghodsi。 作者介绍了数据湖可以作为提供分析的引擎的想法,而不仅仅是静态文件存储。

Data Lakehouse 供应商通过引入高速、可扩展的查询引擎来实现他们的愿景,这些引擎处理数据湖中的原始数据文件并公开 ANSI 标准 SQL 接口。 凭借这一关键创新,该架构的支持者认为数据湖可以像分析仓库一样运行,而无需复制数据。

然而,事实证明,分析仓库执行的其他重要功能仅靠 Data Lakehouse 架构无法满足,包括:

  1. 在广泛的查询中始终如一地提供“思维速度”查询(不到 2 秒的查询)。
  2. 呈现业务友好的语义层,使消费者无需编写 SQL 即可提出问题。
  3. 在查询时应用数据治理和安全性。

因此,要让数据湖屋真正取代分析仓库,我们还需要其他东西。

语义层的作用

我已经写了很多关于 语义层 在现代数据堆栈中。 总而言之,语义层是业务数据的逻辑视图,它利用数据虚拟化技术在查询时将物理数据转换为业务友好的数据。 

通过在数据湖屋之上添加语义层平台,我们可以完全消除分析仓库功能,因为语义层平台:

  1. 使用数据虚拟化和自动查询性能调整在 Data Lakehouse 上提供“思维查询速度”。
  2. 提供业务友好的语义层,取代嵌入在每个 BI 工具中的专有语义视图,并允许业务用户提出问题而无需编写 SQL 查询。
  3. 在查询时提供数据治理和安全性。

语义层平台提供数据湖屋缺失的缺失部分。 通过将语义层与数据湖屋相结合,组织可以:

  1. 消除数据副本并简化数据管道。
  2. 整合数据治理和安全性。
  3. 为业务指标提供“单一事实来源”。
  4. 通过将数据保存在数据湖中来降低操作复杂性。
  5. 为分析消费者提供对更多数据和更及时数据的访问。
图 2:带有语义层的新 Data Lakehouse 堆栈 

语义湖屋:人人皆赢

每个人都因这种架构而获胜。 消费者可以无延迟地访问更细粒度的数据。 IT 和数据工程团队需要移动和转换的数据更少。 财务在云基础设施成本上花费的钱更少。 

如您所见,通过将语义层与数据湖屋相结合,组织可以简化其数据和分析操作,并以更低的成本更快地向更多消费者提供更多数据。

时间戳记:

更多来自 数据多样性