Озера данных и семантические слои существуют уже долгое время — каждый из них живет в своем собственном саду, тесно связанном с довольно узкими вариантами использования. По мере того как инфраструктура данных и аналитики перемещается в облако, многие задаются вопросом, как эти основные технологические компоненты вписываются в современный стек данных и аналитики. В этой статье мы углубимся в то, как хранилище данных и семантический слой вместе переворачивают с ног на голову традиционные отношения между озерами данных и инфраструктурой аналитики. Мы узнаем, как семантический домик у озера может значительно упростить облачные архитектуры данных, устраните ненужное перемещение данных и сократите время окупаемости и расходы на облако.
Традиционная архитектура данных и аналитики
В 2006 году Amazon представила Amazon Web Services (AWS) как новый способ переноса локального центра обработки данных в облако. Основным сервисом AWS было хранилище файловых данных, и вместе с ним появилось первое облачное озеро данных — Amazon S3. После этого другие поставщики облачных услуг представят свои собственные версии инфраструктуры облачных озер данных.
На протяжении большей части своего существования облачное озеро данных играло роль глупой, дешевой хранение данных на грани наркоза инсценировка область для необработанных данных, пока данные не могут быть преобразованы во что-то полезное. Для аналитики озеро данных служило хранилищем для данных до тех пор, пока их нельзя было скопировать и загрузить в оптимизированную аналитическую платформу, как правило, в реляционное облачное хранилище данных, питающее либо кубы OLAP, либо извлечения данных из проприетарных инструментов бизнес-аналитики (BI), таких как Tableau Hyper или Power BI Premium или все вышеперечисленное. В результате этого шаблона обработки данные необходимо было сохранить как минимум дважды: один раз в необработанном виде и один раз в форме, «оптимизированной для аналитики».
Неудивительно, что большинство традиционных архитектур облачной аналитики выглядят так, как показано на схеме ниже:
Как видите, «склад аналитики» отвечает за большинство функций, которые доставляют аналитику потребителям. Проблема с этой архитектурой заключается в следующем:
- Данные хранятся дважды, что увеличивает затраты и усложняет работу.
- Данные в хранилище аналитики представляют собой моментальный снимок, что означает, что данные мгновенно устаревают.
- Данные в аналитическом хранилище обычно представляют собой подмножество данных в озере данных, что ограничивает количество вопросов, которые могут задавать потребители.
- Хранилище аналитики масштабируется отдельно и иначе, чем облачная платформа данных, что приводит к дополнительным затратам, проблемам безопасности и сложности эксплуатации.
Учитывая эти недостатки, вы можете спросить: «Почему архитекторы облачных данных выбирают именно этот шаблон проектирования?» Ответ кроется в запросах потребителей аналитики. Хотя теоретически озеро данных может обслуживать аналитические запросы непосредственно у потребителей, на практике озеро данных работает слишком медленно и несовместимо с популярными инструментами аналитики.
Если бы только озеро данных могло обеспечить преимущества аналитического хранилища, и мы могли бы избежать двойного хранения данных!
Рождение Data Lakehouse
Термин «Lakehouse» впервые появился в 2020 году в официальном документе Databricks. «Что такое Лейкхаус?» Бен Лорика, Майкл Армбруст, Рейнольд Синь, Матей Захария и Али Годси. Авторы представили идею о том, что озеро данных может служить механизмом предоставления аналитики, а не просто хранилищем статических файлов.
Поставщики хранилища данных реализовали свое видение, внедрив высокоскоростные масштабируемые механизмы запросов, которые работают с файлами необработанных данных в озере данных и предоставляют стандартный SQL-интерфейс ANSI. С помощью этого ключевого нововведения сторонники этой архитектуры утверждают, что озера данных могут вести себя как аналитические хранилища без необходимости дублирования данных.
Однако оказывается, что хранилище аналитики выполняет и другие жизненно важные функции, которые не выполняются одной только архитектурой хранилища данных, в том числе:
- Выполнение запросов со скоростью мысли (запросы менее чем за 2 секунды) последовательно по широкому спектру запросов.
- Представление удобного для бизнеса семантического уровня, который позволяет потребителям задавать вопросы без необходимости написания SQL.
- Применение управления данными и безопасности во время запроса.
Итак, чтобы хранилище данных действительно заменило хранилище аналитики, нам нужно что-то еще.
Роль семантического слоя
Я много писал о роли семантический слой в современном стеке данных. Подводя итог, можно сказать, что семантический уровень — это логическое представление бизнес-данных, использующее технологию виртуализации данных для преобразования физических данных в удобные для бизнеса данные во время запроса.
Добавив платформу семантического уровня поверх хранилища данных, мы можем полностью исключить функции хранилища аналитики, поскольку платформа семантического уровня:
- Обеспечивает «скорость мыслительных запросов» в хранилище данных, используя виртуализацию данных и автоматическую настройку производительности запросов.
- Обеспечивает удобный для бизнеса семантический уровень, который заменяет проприетарные семантические представления, встроенные в каждый инструмент бизнес-аналитики, и позволяет бизнес-пользователям задавать вопросы без необходимости написания SQL-запросов.
- Обеспечивает управление данными и безопасность во время запроса.
Платформа семантического уровня доставляет недостающие части, которых не хватает в хранилище данных. Комбинируя семантический слой с хранилищем данных, организации могут:
- Устраните копии данных и упростите конвейеры данных.
- Консолидируйте управление данными и безопасность.
- Предоставляйте «единый источник достоверной информации» для бизнес-показателей.
- Снижайте операционную сложность, сохраняя данные в озере данных.
- Предоставляйте потребителям аналитики доступ к большему количеству данных и более своевременным данным.
Semantic Lakehouse: выигрывают все
С этой архитектурой выигрывают все. Потребители получают доступ к более точным данным без задержки. У ИТ-специалистов и специалистов по обработке данных меньше данных, которые нужно перемещать и преобразовывать. Финансы тратят меньше денег на затраты на облачную инфраструктуру.
Как видите, комбинируя семантический уровень с хранилищем данных, организации могут упростить свои операции с данными и аналитикой и предоставлять больше данных быстрее большему количеству потребителей с меньшими затратами.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://www.dataversity.net/the-semantic-lakehouse-explained/
- :является
- 1
- 2020
- a
- О нас
- выше
- доступ
- дополнительный
- Все
- позволяет
- в одиночестве
- Amazon
- Amazon Web Services
- Веб-службы Amazon (AWS)
- Аналитические фармацевтические услуги
- аналитика
- и
- ответ
- архитектура
- МЫ
- ПЛОЩАДЬ
- спорить
- около
- гайд
- AS
- At
- Авторы
- Автоматизированный
- AWS
- BE
- , так как:
- ниже
- Преимущества
- между
- рожденный
- бизнес
- бизнес-аналитика
- by
- CAN
- случаев
- Центр
- сложные
- дешево
- Выберите
- облако
- облачная инфраструктура
- комбинируя
- сложность
- компоненты
- Обеспокоенность
- Потребители
- копии
- Основные
- Цена
- Расходы
- может
- соединенный
- создает
- данным
- Центр обработки данных
- Озеро данных
- Платформа данных
- информационное хранилище
- Databricks
- ДАТАВЕРСИЯ
- доставить
- поставляется
- доставки
- обеспечивает
- запросы
- Проект
- непосредственно
- драматично
- недостатки
- каждый
- или
- ликвидировать
- встроенный
- Двигатель
- Проект и
- Двигатели
- объяснены
- Экстракты
- достаточно
- быстрее
- кормление
- Файл
- Файлы
- финансы
- First
- соответствовать
- следующим образом
- Что касается
- форма
- от
- Функции
- Gardens
- получить
- управление
- Есть
- High
- проведение
- Как
- HTML
- HTTPS
- идея
- in
- В том числе
- Увеличивает
- Инфраструктура
- Инновации
- Интеллекта
- Интерфейс
- вводить
- выпустили
- введение
- IT
- ЕГО
- хранение
- Основные
- озеро
- Задержка
- слой
- УЧИТЬСЯ
- рычаги
- ЖИЗНЬЮ
- такое как
- рамки
- жизнью
- логический
- Длинное
- много времени
- посмотреть
- выглядит как
- серия
- Большинство
- многих
- макс-ширина
- означает
- Метрика
- Майкл
- может быть
- отсутствующий
- Модерн
- деньги
- БОЛЕЕ
- самых
- двигаться
- движение
- Необходимость
- необходимый
- нуждающихся
- Новые
- of
- on
- оперативный
- Операционный отдел
- оптимизированный
- организации
- Другое
- собственный
- шаблон
- производительность
- выполняет
- физический
- штук
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- игры
- Популярное
- мощностью
- Power BI
- практика
- Премиум
- Проблема
- обработка
- ( изучите наши патенты),
- Вопросы
- ассортимент
- Сырье
- необработанные данные
- уменьшить
- отношения
- замещать
- ответственный
- результат
- Роли
- довольный
- масштабируемые
- Весы
- секунды
- безопасность
- служить
- обслуживание
- Услуги
- упростить
- медленной
- Снимок
- удалось
- Источник
- скорость
- SQL
- стек
- стандарт
- магазин
- хранить
- суммировать
- Живая картина
- команды
- Технологии
- который
- Ассоциация
- их
- Эти
- мысль
- плотно
- время
- в
- вместе
- слишком
- инструментом
- инструменты
- топ
- традиционный
- Transform
- переведите
- Дважды
- типично
- под
- использование
- пользователей
- ценностное
- поставщики
- Вид
- Просмотры
- видение
- жизненный
- обнесенный стеной
- Склады
- Путь..
- Web
- веб-сервисы
- который
- в то время как
- белый
- широкий
- Широкий диапазон
- будете
- Победы
- без
- Работа
- бы
- записывать
- письменный
- зефирнет