시맨틱 레이크하우스 설명

시맨틱 레이크하우스 설명

소스 노드 : 1995005

데이터 레이크 및 시맨틱 레이어 오랫동안 주변에 있었습니다. 각각은 상당히 좁은 사용 사례에 밀접하게 연결된 자체 벽으로 둘러싸인 정원에 살고 있습니다. 데이터 및 분석 인프라가 클라우드로 마이그레이션됨에 따라 많은 사람들이 이러한 기본 기술 구성 요소가 최신 데이터 및 분석 스택에 어떻게 부합하는지에 대해 도전하고 있습니다. 이 기사에서는 데이터 레이크하우스와 시맨틱 계층이 함께 데이터 레이크와 분석 인프라 사이의 기존 관계를 뒤집는 방법에 대해 자세히 설명합니다. 우리는 시맨틱 레이크하우스가 어떻게 극적으로 단순화할 수 있는지 배울 것입니다. 클라우드 데이터 아키텍처, 불필요한 데이터 이동을 제거하고 가치 창출 시간과 클라우드 비용을 줄입니다.

전통적인 데이터 및 분석 아키텍처

2006년 Amazon은 온프레미스 데이터 센터를 클라우드로 오프로드하는 새로운 방법으로 Amazon Web Services(AWS)를 도입했습니다. 핵심 AWS 서비스는 파일 데이터 저장소였으며 이를 통해 최초의 클라우드 데이터 레이크인 Amazon S3가 탄생했습니다. 다른 클라우드 공급업체는 이후에 자체 버전의 클라우드 데이터 레이크 인프라를 도입할 것입니다.

대부분의 수명 동안 클라우드 데이터 레이크는 멍청하고 값싼 역할을 하는 것으로 강등되었습니다. 데이터 저장각색 원시 데이터 영역, 데이터가 유용한 것으로 처리될 때까지. 분석을 위해 데이터 레이크는 최적화된 분석 플랫폼(일반적으로 OLAP 큐브, Tableau Hyper와 같은 독점 비즈니스 인텔리전스(BI) 도구 데이터 추출 또는 Power BI Premium 또는 위의 모든 것. 이러한 처리 패턴의 결과로 데이터를 최소 두 번 저장해야 했습니다. 한 번은 원시 형식으로, 다른 한 번은 "최적화된 분석" 형식으로 저장해야 했습니다. 

당연히 대부분의 기존 클라우드 분석 아키텍처는 아래 다이어그램과 같습니다.

이미지 1: 기존 데이터 및 분석 스택

보시다시피 "분석 웨어하우스"는 소비자에게 분석을 제공하는 대부분의 기능을 담당합니다. 이 아키텍처의 문제점은 다음과 같습니다.

  1. 데이터는 두 번 저장되므로 비용이 증가하고 운영이 복잡해집니다.
  2. 분석 웨어하우스의 데이터는 스냅샷이므로 데이터가 즉시 부실해집니다.
  3. 분석 웨어하우스의 데이터는 일반적으로 데이터 레이크 데이터의 하위 집합이므로 소비자가 질문할 수 있는 질문이 제한됩니다.
  4. 분석 웨어하우스는 클라우드 데이터 플랫폼과 별도로 확장되므로 추가 비용, 보안 문제 및 운영 복잡성이 발생합니다.

이러한 단점을 고려할 때 "클라우드 데이터 설계자가 이 디자인 패턴을 선택하는 이유는 무엇입니까?"라고 물을 수 있습니다. 답은 분석 소비자의 요구에 있습니다. 데이터 레이크는 이론적으로 소비자에게 직접 분석 쿼리를 제공할 수 있지만 실제로는 데이터 레이크가 너무 느리고 널리 사용되는 분석 도구와 호환되지 않습니다. 

데이터 레이크만 분석 웨어하우스의 이점을 제공하고 데이터를 두 번 저장하지 않아도 된다면!

데이터 레이크하우스의 탄생

"Lakehouse"라는 용어는 2020년에 중요한 Databricks 백서와 함께 데뷔했습니다. “레이크하우스가 무엇인가요?” Ben Lorica, Michael Armbrust, Reynold Xin, Matei Zaharia 및 Ali Ghodsi 작성. 저자는 데이터 레이크가 정적 파일 저장소가 아니라 분석 제공을 위한 엔진 역할을 할 수 있다는 아이디어를 소개했습니다.

데이터 레이크하우스 공급업체는 데이터 레이크의 원시 데이터 파일에서 작동하고 ANSI 표준 SQL 인터페이스를 노출하는 확장 가능한 고속 쿼리 엔진을 도입하여 비전을 실현했습니다. 이 핵심 혁신을 통해 이 아키텍처의 지지자들은 데이터 레이크가 데이터를 복제할 필요 없이 분석 웨어하우스처럼 작동할 수 있다고 주장합니다.

그러나 분석 웨어하우스는 다음을 포함하여 데이터 레이크하우스 아키텍처만으로는 충족되지 않는 다른 중요한 기능을 수행하는 것으로 나타났습니다.

  1. 광범위한 쿼리에서 일관되게 "생각의 속도" 쿼리(2초 미만의 쿼리)를 제공합니다.
  2. 소비자가 SQL을 작성하지 않고도 질문할 수 있는 비즈니스 친화적인 시맨틱 계층을 제공합니다.
  3. 쿼리 시간에 데이터 거버넌스 및 보안을 적용합니다.

따라서 데이터 레이크하우스가 분석 웨어하우스를 진정으로 대체하려면 다른 것이 필요합니다.

의미 계층의 역할

의 역할에 대해 많이 썼습니다. 의미 계층 최신 데이터 스택에서. 요약하면 시맨틱 계층은 데이터 가상화 기술을 활용하여 쿼리 시 물리적 데이터를 비즈니스 친화적인 데이터로 변환하는 비즈니스 데이터의 논리적 보기입니다. 

데이터 레이크하우스 위에 시맨틱 레이어 플랫폼을 추가하면 시맨틱 레이어 플랫폼이 다음과 같이 하기 때문에 분석 웨어하우스 기능을 모두 제거할 수 있습니다.

  1. 데이터 가상화 및 자동화된 쿼리 성능 튜닝을 사용하여 데이터 레이크하우스에서 "생각하는 쿼리 속도"를 제공합니다.
  2. 비즈니스 사용자가 SQL 쿼리를 작성할 필요 없이 질문할 수 있도록 각 BI 도구에 내장된 고유한 시맨틱 보기를 대체하는 비즈니스 친화적인 시맨틱 계층을 제공합니다.
  3. 쿼리 시 데이터 거버넌스와 보안을 제공합니다.

시맨틱 계층 플랫폼은 데이터 레이크하우스에서 누락된 부분을 제공합니다. 시맨틱 계층을 데이터 레이크하우스와 결합하여 조직은 다음을 수행할 수 있습니다.

  1. 데이터 사본을 제거하고 데이터 파이프라인을 단순화합니다.
  2. 데이터 거버넌스와 보안을 통합합니다.
  3. 비즈니스 메트릭에 대한 "단일 정보 소스"를 제공합니다.
  4. 데이터를 데이터 레이크에 보관하여 운영 복잡성을 줄입니다.
  5. 분석 소비자에게 더 많은 데이터와 더 시의적절한 데이터에 대한 액세스를 제공합니다.
이미지 2: 시맨틱 계층이 있는 새로운 데이터 레이크하우스 스택 

시맨틱 레이크하우스: 모두가 이긴다

모두가 이 아키텍처로 승리합니다. 소비자는 대기 시간 없이 보다 세분화된 데이터에 액세스할 수 있습니다. IT 및 데이터 엔지니어링 팀은 이동하고 변환할 데이터가 적습니다. 재무는 클라우드 인프라 비용에 더 적은 돈을 씁니다. 

보시다시피 시맨틱 계층을 데이터 레이크하우스와 결합함으로써 조직은 데이터 및 분석 작업을 단순화하고 더 적은 비용으로 더 많은 소비자에게 더 많은 데이터를 더 빠르게 제공할 수 있습니다.

타임 스탬프 :

더보기 데이터 버 시티