A semântica Lakehouse explicada

A semântica Lakehouse explicada

Nó Fonte: 1995005

lagos de dados e camadas semânticas existem há muito tempo - cada um vivendo em seus próprios jardins murados, fortemente acoplados a casos de uso bastante estreitos. À medida que a infraestrutura de dados e análises migra para a nuvem, muitos estão desafiando a forma como esses componentes básicos de tecnologia se encaixam na pilha moderna de dados e análises. Neste artigo, vamos nos aprofundar em como um data lakehouse e uma camada semântica juntos derrubam o relacionamento tradicional entre data lakes e infraestrutura analítica. Aprenderemos como uma casa do lago semântica pode simplificar drasticamente arquiteturas de dados em nuvem, elimine a movimentação desnecessária de dados e reduza o tempo de valorização e os custos da nuvem.

A arquitetura tradicional de dados e análise

Em 2006, a Amazon introduziu o Amazon Web Services (AWS) como uma nova maneira de descarregar o datacenter local para a nuvem. Um serviço central da AWS era o armazenamento de dados de arquivos e, com isso, nasceu o primeiro data lake na nuvem, o Amazon S3. Outros fornecedores de nuvem introduziriam suas próprias versões de infraestrutura de data lake em nuvem a partir de então.

Durante a maior parte de sua vida, o data lake na nuvem foi relegado a desempenhar o papel de um banco de dados estúpido e barato. armazenamento de dados - Um encenação área para dados brutos, até que os dados possam ser processados ​​em algo útil. Para análise, o data lake serviu como um compartimento para os dados até que pudessem ser copiados e carregados em uma plataforma de análise otimizada, normalmente um data warehouse relacional em nuvem alimentando cubos OLAP, extrações de dados de ferramentas proprietárias de business intelligence (BI) como Tableau Hyper ou Power BI Premium ou todos os itens acima. Como resultado desse padrão de processamento, os dados precisavam ser armazenados pelo menos duas vezes, uma vez em sua forma bruta e outra em sua forma “analítica otimizada”. 

Não surpreendentemente, a maioria das arquiteturas de análise de nuvem tradicionais se parecem com o diagrama abaixo:

Imagem 1: pilha tradicional de dados e análises

Como você pode ver, o “armazém analítico” é responsável pela maioria das funções que fornecem análises aos consumidores. O problema com essa arquitetura é o seguinte:

  1. Os dados são armazenados duas vezes, o que aumenta os custos e cria complexidade operacional.
  2. Os dados no armazém de análise são um instantâneo, o que significa que os dados ficam instantaneamente obsoletos.
  3. Os dados no data warehouse geralmente são um subconjunto dos dados no data lake, o que limita as perguntas que os consumidores podem fazer.
  4. O armazém analítico é dimensionado separadamente e de forma diferente da plataforma de dados em nuvem, introduzindo custos adicionais, preocupações com segurança e complexidade operacional.

Dadas essas desvantagens, você pode perguntar “Por que os arquitetos de dados em nuvem escolheriam esse padrão de design?” A resposta está nas demandas dos consumidores analíticos. Embora o data lake possa, teoricamente, atender consultas analíticas diretamente aos consumidores, na prática, o data lake é muito lento e incompatível com ferramentas de análise populares. 

Se ao menos o data lake pudesse oferecer os benefícios de um armazém de análise e pudéssemos evitar o armazenamento de dados duas vezes!

O nascimento da Data Lakehouse

O termo “Lakehouse” estreou em 2020 com o white paper seminal da Databricks “O que é uma Casa do Lago?” por Ben Lorica, Michael Armbrust, Reynold Xin, Matei Zaharia e Ali Ghodsi. Os autores introduziram a ideia de que o data lake poderia servir como um mecanismo para fornecer análises, não apenas como um armazenamento de arquivos estáticos.

Os fornecedores de data lakehouse cumpriram sua visão introduzindo mecanismos de consulta escalonáveis ​​e de alta velocidade que funcionam em arquivos de dados brutos no data lake e expõem uma interface SQL padrão ANSI. Com essa inovação fundamental, os proponentes dessa arquitetura argumentam que os data lakes podem se comportar como um armazém analítico, sem a necessidade de duplicar dados.

No entanto, verifica-se que o armazém analítico executa outras funções vitais que não são satisfeitas apenas pela arquitetura do data lakehouse, incluindo:

  1. Fornecendo consultas de “velocidade de pensamento” (consultas em menos de 2 segundos) de forma consistente em uma ampla gama de consultas.
  2. Apresentando uma camada semântica amigável aos negócios que permite que os consumidores façam perguntas sem precisar escrever SQL.
  3. Aplicando governança e segurança de dados no momento da consulta.

Então, para que um data lakehouse realmente substitua o analytics warehouse, precisamos de algo mais.

O Papel da Camada Semântica

Escrevi muito sobre o papel do camada semântica na pilha de dados moderna. Para resumir, uma camada semântica é uma visão lógica dos dados de negócios que aproveita a tecnologia de virtualização de dados para converter dados físicos em dados amigáveis ​​aos negócios no momento da consulta. 

Ao adicionar uma plataforma de camada semântica em cima de um data lakehouse, podemos eliminar completamente as funções do armazém analítico porque a plataforma de camada semântica:

  1. Fornece "consultas rápidas" no data lakehouse usando virtualização de dados e ajuste automatizado de desempenho de consulta.
  2. Oferece uma camada semântica amigável para os negócios que substitui as exibições semânticas proprietárias incorporadas em cada ferramenta de BI e permite que os usuários corporativos façam perguntas sem precisar escrever consultas SQL.
  3. Oferece governança e segurança de dados no momento da consulta.

Uma plataforma de camada semântica fornece as peças que faltam no data lakehouse. Ao combinar uma camada semântica com um data lakehouse, as organizações podem:

  1. Elimine as cópias de dados e simplifique os pipelines de dados.
  2. Consolide a governança e a segurança dos dados.
  3. Forneça uma “fonte única de verdade” para métricas de negócios.
  4. Reduza a complexidade operacional mantendo os dados no data lake.
  5. Forneça acesso a mais dados e dados mais oportunos para os consumidores analíticos.
Imagem 2: Nova pilha Data Lakehouse com uma camada semântica 

A Semantic Lakehouse: Todo mundo ganha

Todos ganham com esta arquitetura. Os consumidores obtêm acesso a dados mais refinados sem latência. As equipes de TI e engenharia de dados têm menos dados para mover e transformar. Finanças gasta menos dinheiro em custos de infraestrutura de nuvem. 

Como você pode ver, combinando uma camada semântica com um data lakehouse, as organizações podem simplificar suas operações de dados e análises e fornecer mais dados, mais rapidamente, para mais consumidores, com menos custo.

Carimbo de hora:

Mais de DATAVERSIDADE