Объяснение семантического домика у озера

Объяснение семантического домика у озера

Исходный узел: 1995005

Озера данных и семантические слои существуют уже долгое время — каждый из них живет в своем собственном саду, тесно связанном с довольно узкими вариантами использования. По мере того как инфраструктура данных и аналитики перемещается в облако, многие задаются вопросом, как эти основные технологические компоненты вписываются в современный стек данных и аналитики. В этой статье мы углубимся в то, как хранилище данных и семантический слой вместе переворачивают с ног на голову традиционные отношения между озерами данных и инфраструктурой аналитики. Мы узнаем, как семантический домик у озера может значительно упростить облачные архитектуры данных, устраните ненужное перемещение данных и сократите время окупаемости и расходы на облако.

Традиционная архитектура данных и аналитики

В 2006 году Amazon представила Amazon Web Services (AWS) как новый способ переноса локального центра обработки данных в облако. Основным сервисом AWS было хранилище файловых данных, и вместе с ним появилось первое облачное озеро данных — Amazon S3. После этого другие поставщики облачных услуг представят свои собственные версии инфраструктуры облачных озер данных.

На протяжении большей части своего существования облачное озеро данных играло роль глупой, дешевой хранение данных на грани наркоза инсценировка область для необработанных данных, пока данные не могут быть преобразованы во что-то полезное. Для аналитики озеро данных служило хранилищем для данных до тех пор, пока их нельзя было скопировать и загрузить в оптимизированную аналитическую платформу, как правило, в реляционное облачное хранилище данных, питающее либо кубы OLAP, либо извлечения данных из проприетарных инструментов бизнес-аналитики (BI), таких как Tableau Hyper или Power BI Premium или все вышеперечисленное. В результате этого шаблона обработки данные необходимо было сохранить как минимум дважды: один раз в необработанном виде и один раз в форме, «оптимизированной для аналитики». 

Неудивительно, что большинство традиционных архитектур облачной аналитики выглядят так, как показано на схеме ниже:

Изображение 1: Традиционный стек данных и аналитики

Как видите, «склад аналитики» отвечает за большинство функций, которые доставляют аналитику потребителям. Проблема с этой архитектурой заключается в следующем:

  1. Данные хранятся дважды, что увеличивает затраты и усложняет работу.
  2. Данные в хранилище аналитики представляют собой моментальный снимок, что означает, что данные мгновенно устаревают.
  3. Данные в аналитическом хранилище обычно представляют собой подмножество данных в озере данных, что ограничивает количество вопросов, которые могут задавать потребители.
  4. Хранилище аналитики масштабируется отдельно и иначе, чем облачная платформа данных, что приводит к дополнительным затратам, проблемам безопасности и сложности эксплуатации.

Учитывая эти недостатки, вы можете спросить: «Почему архитекторы облачных данных выбирают именно этот шаблон проектирования?» Ответ кроется в запросах потребителей аналитики. Хотя теоретически озеро данных может обслуживать аналитические запросы непосредственно у потребителей, на практике озеро данных работает слишком медленно и несовместимо с популярными инструментами аналитики. 

Если бы только озеро данных могло обеспечить преимущества аналитического хранилища, и мы могли бы избежать двойного хранения данных!

Рождение Data Lakehouse

Термин «Lakehouse» впервые появился в 2020 году в официальном документе Databricks. «Что такое Лейкхаус?» Бен Лорика, Майкл Армбруст, Рейнольд Синь, Матей Захария и Али Годси. Авторы представили идею о том, что озеро данных может служить механизмом предоставления аналитики, а не просто хранилищем статических файлов.

Поставщики хранилища данных реализовали свое видение, внедрив высокоскоростные масштабируемые механизмы запросов, которые работают с файлами необработанных данных в озере данных и предоставляют стандартный SQL-интерфейс ANSI. С помощью этого ключевого нововведения сторонники этой архитектуры утверждают, что озера данных могут вести себя как аналитические хранилища без необходимости дублирования данных.

Однако оказывается, что хранилище аналитики выполняет и другие жизненно важные функции, которые не выполняются одной только архитектурой хранилища данных, в том числе:

  1. Выполнение запросов со скоростью мысли (запросы менее чем за 2 секунды) последовательно по широкому спектру запросов.
  2. Представление удобного для бизнеса семантического уровня, который позволяет потребителям задавать вопросы без необходимости написания SQL.
  3. Применение управления данными и безопасности во время запроса.

Итак, чтобы хранилище данных действительно заменило хранилище аналитики, нам нужно что-то еще.

Роль семантического слоя

Я много писал о роли семантический слой в современном стеке данных. Подводя итог, можно сказать, что семантический уровень — это логическое представление бизнес-данных, использующее технологию виртуализации данных для преобразования физических данных в удобные для бизнеса данные во время запроса. 

Добавив платформу семантического уровня поверх хранилища данных, мы можем полностью исключить функции хранилища аналитики, поскольку платформа семантического уровня:

  1. Обеспечивает «скорость мыслительных запросов» в хранилище данных, используя виртуализацию данных и автоматическую настройку производительности запросов.
  2. Обеспечивает удобный для бизнеса семантический уровень, который заменяет проприетарные семантические представления, встроенные в каждый инструмент бизнес-аналитики, и позволяет бизнес-пользователям задавать вопросы без необходимости написания SQL-запросов.
  3. Обеспечивает управление данными и безопасность во время запроса.

Платформа семантического уровня доставляет недостающие части, которых не хватает в хранилище данных. Комбинируя семантический слой с хранилищем данных, организации могут:

  1. Устраните копии данных и упростите конвейеры данных.
  2. Консолидируйте управление данными и безопасность.
  3. Предоставляйте «единый источник достоверной информации» для бизнес-показателей.
  4. Снижайте операционную сложность, сохраняя данные в озере данных.
  5. Предоставляйте потребителям аналитики доступ к большему количеству данных и более своевременным данным.
Изображение 2: Новый стек Data Lakehouse с семантическим слоем 

Semantic Lakehouse: выигрывают все

С этой архитектурой выигрывают все. Потребители получают доступ к более точным данным без задержки. У ИТ-специалистов и специалистов по обработке данных меньше данных, которые нужно перемещать и преобразовывать. Финансы тратят меньше денег на затраты на облачную инфраструктуру. 

Как видите, комбинируя семантический уровень с хранилищем данных, организации могут упростить свои операции с данными и аналитикой и предоставлять больше данных быстрее большему количеству потребителей с меньшими затратами.

Отметка времени:

Больше от ДАТАВЕРСИЯ