Наблюдаемость данных: что это такое и почему это важно - DATAVERSITY

Наблюдаемость данных: что это такое и почему это важно — DATAVERSITY

Исходный узел: 2691645
наблюдаемость данныхнаблюдаемость данных

Как процесс наблюдаемость данных используется предприятиями, работающими с огромными объемами данных. Многие крупные современные организации пытаются отслеживать свои данные с помощью различных приложений и инструментов. К сожалению, немногие предприятия развивают видимость, необходимую для реалистичного обзора. 

Наблюдаемость данных обеспечивает такой обзор, позволяющий как можно быстрее устранять проблемы с потоком данных.

Процесс наблюдаемости включает в себя множество методов и технологий, которые помогают выявлять и решать проблемы с данными в режиме реального времени. Этот процесс строит многомерную карту всего потока бизнес-данных, предлагая более глубокое понимание производительности системы и качества данных. 

На вопрос о наблюдаемости данных Райан Якель, директор по маркетингу Databand, компании IBM, прокомментировал:

«Поскольку объем, скорость и сложность конвейеров больших данных продолжают расти, компании полагаются на команды по разработке данных и платформы как на основу своего бизнеса, управляемого данными. Проблема в том, что большинству этих команд не хватает работы. Они борются с данными с помощью инцидентов, связанных с надежностью и качеством, что мешает сосредоточиться на стратегических инициативах, связанных с AL/ML, аналитикой и продуктами данных. Наблюдаемость данных обеспечивает решение».

Первоначально наблюдаемость данных может показаться формой происхождение данных, но эти два процесса служат разным целям. 

Наблюдаемость данных направлена ​​на быстрое и эффективное решение проблем с данными с помощью системы измерения. Однако линия передачи данных используется в основном для сбора и хранения высококачественных данных — данных, которым можно доверять.

Кроме того, родословная данных может использоваться как компонент для поддержки программы наблюдения. (Некоторые статьи рекламируют наблюдаемость данных как служащую той же цели, что и происхождение данных, и в этом утверждении есть доля правды. Происхождение данных — это компонент наблюдаемости данных.) 

Термин «наблюдаемость» изначально был философской концепцией, разработанной Гераклитом около 510 г. до н.э. Он определил, что наблюдаемость требует сравнительных различий - холод можно наблюдать по сравнению с теплом. В 1871 году физик Джеймс К. Максвелл выдвинул идею о том, что невозможно узнать местоположение всех частиц в рамках термодинамического эксперимента, но, наблюдая «определенные ключевые результаты» для сравнительных изменений, можно сделать точные прогнозы. 

Описание Максвелла наблюдаемости с использованием ключевых выходных данных было адаптировано и применено к различным автоматизированным приложениям, начиная от заводского оборудования и заканчивая датчиками самолетов. Затем эта концепция была принята DevOps для отладки и обработки «производственных инцидентов» примерно в 2016 году. В 2019 году Барр Мозес — генеральный директор и соучредитель Monte Carlo — разработал процесс наблюдения, предназначенный для обеспечения обзора потока данных организации. . 

Моисей написал

«Наблюдаемость данных — это способность организации полностью понимать состояние данных в своих системах. Наблюдаемость данных устраняет время простоя данных за счет применения лучших практик, извлеченных из DevOps в наблюдаемость конвейера данных".

Пять столпов наблюдаемости данных

Наблюдаемость данных работает для решения проблем с данными и информацией, предоставляя подробную карту данных в режиме реального времени. Он обеспечивает прозрачность операций с данными в организации. Многие предприятия имеют разрозненные данные, которые блокируют возможность наблюдения. Хранилища данных должны быть устранены для поддержки программы наблюдаемости данных. 

Когда такие действия, как отслеживание, мониторинг, оповещение, анализ, ведение журналов и «сравнения», выполняются без панели наблюдения, может иметь место форма организационного разделения. Люди в одном отделе не осознают, что их усилия имеют непредвиденные последствия в другом отделе, например, недостающая/разрозненная информация, способствующая принятию неправильных решений, или часть системы не работает, и никто этого не понимает. 

Помните, наблюдаемость — это измерение определенных ключевых выходных данных. Пять столпов (или ключевых результатов), которые Барр Мозес разработал для целей измерения: 

  • Качество: Данные высокого качества считаются точными, а данные низкого качества — нет. Измерения качества данных позволяют понять, можно ли доверять вашим данным. Есть разные способы измерять Качество данных.
  • Схема: Это связано с изменениями в организации данных, а измерения схемы могут показать разрывы в потоке данных. Определение того, когда, как и кто внес изменения, может быть полезным с точки зрения профилактического обслуживания. 
  • Объем: Большие объемы данных полезны для исследовательских и маркетинговых целей. Это может предоставить организациям комплексное представление о своих клиентах и ​​рынке. Чем больше актуальных и исторических данных используется в ходе исследования, тем больше информации.
  • Происхождение данных: Хорошая программа наследования данных записывает изменения данных и их местоположения и обычно используется для улучшения качества данных. Однако его также можно использовать как часть программы наблюдения за данными. В этом качестве он используется для устранения неполадок, которые могут возникнуть, и перечисления того, что было сделано до повреждения. 
  • Свежесть: По сути, речь идет о том, чтобы не использовать старую информацию или, как ее называет Барр Мозес, устаревшие данные. Свежесть акцентирует внимание на актуальных данных, что важно при принятии решений на основе данных. Временные метки обычно используются для определения того, устарели ли данные. 

В сочетании измерения этих компонентов или столпов могут дать ценную информацию о проблемах, которые развиваются или просто появляются, и способствуют возможности выполнять ремонт как можно быстрее.

Проблемы наблюдаемости данных

Правильная платформа наблюдения за данными может изменить то, как компании поддерживают свои данные и управляют ими. К сожалению, внедрение платформы может вызвать некоторые проблемы. Проблемы совместимости будут возникать, когда платформа не подходит. 

Платформы и инструменты наблюдения могут быть ограничены, если конвейер данных, программное обеспечение, серверы и базы данных не полностью совместимы. Эти платформы не работают в вакууме, поэтому важно устранить любые разрозненные хранилища данных из системы и убедиться, что все системы данных в организации интегрированы. 

Перед подписанием контракта важно протестировать платформу наблюдения за данными.

К сожалению, даже когда все внутренние и внешние источники данных бизнеса правильно интегрированы в платформу, различные модели данных может вызвать проблемы. Многие предприятия поддерживают 400 и более источников данных, и каждый внешний источник может представлять проблему, если он не использует одни и те же стандарты и форматы.

За исключением инструментов с открытым исходным кодом, платформы наблюдения основаны на облаке и могут предлагать некоторую гибкость, поддерживающую тонкую настройку. 

Лучшие платформы наблюдения ориентированы на стандартизированный процесс измерения и рекомендации по регистрации. Это способствует эффективной корреляции информации, но внешние источники данных и настроенные конвейеры данных могут вызвать проблемы и потребовать дополнительных ручных усилий для выполнения задач, которые должны были быть автоматизированы.

Кроме того, некоторые инструменты могут иметь необычную стоимость хранения, что ограничивает масштабируемость.

Платформы наблюдения за данными

Платформы наблюдения за данными обычно содержат множество полезных инструментов. Они часто включают в себя автоматизированную поддержку автоматизированного происхождения данных, анализ первопричин, качество данных и мониторинг для выявления, устранения и предотвращения аномалий в потоке данных. 

Платформы способствуют повышению производительности, более здоровым конвейерам и более довольным клиентам. Некоторые популярные платформы наблюдения за данными:

  • Диапазон данных предоставляет высокофункциональную платформу наблюдения, которая может очень быстро обнаруживать и устранять проблемы с данными, используя непрерывный процесс наблюдения, который выявляет проблемы с данными до того, как они повлияют на ваш бизнес. 
  • Монте-Карло предлагает платформу наблюдения, которую можно описать как обеспечивающую наблюдаемость «от конвейера до бизнес-аналитика». Это обеспечивает надежность данных при оркестровке различных сервисов и инструментов данных. 
  • Метаплан обладает сквозной наблюдаемостью.
  • Есть множество открытые источники доступные инструменты наблюдаемости, которые стоило бы изучить.

Важность наблюдаемости данных

Для организаций, имеющих дело с большими потоками данных, наблюдаемость может использоваться для мониторинга системы данных в целом и отправки красных флажков при возникновении проблемы. 

Поскольку предприятия собирают огромные объемы данных из различных источников, они разрабатывают системы для их обработки слой за слоем. Эти системы включают в себя хранилище данных, конвейеры данных и ряд инструментов. Каждый дополнительный уровень сложности увеличивает вероятность простоя данных из-за таких проблем, как несовместимость или старые или отсутствующие данные.

По словам Якеля, «непрерывное использование наблюдаемости данных для мониторинга конвейеров данных, наборов данных и таблиц данных предупреждает группы обработки данных, когда происходит инцидент с данными, и показывает, как устранить основную причину, прежде чем это повлияет на их бизнес. С наблюдаемостью данных инженеры могут сосредоточиться на создании отличных продуктов данных, а не на обслуживании сломанных процессов». 

Наблюдаемость данных поможет компаниям заблаговременно определить источник проблем с конвейером, ошибок данных и несоответствий потока данных, чтобы укрепить отношения с клиентами и улучшить качество данных.

Изображение используется по лицензии от Shutterstock.com

Отметка времени:

Больше от ДАТАВЕРСИЯ