Оценка качества данных: измерение успеха - DATAVERSITY

Оценка качества данных: измерение успеха – DATAVERSITY

Исходный узел: 2903188
оценка качества данныхоценка качества данных

Целью оценки качества данных является не только выявление неверных данных, но также оценка ущерба, нанесенного бизнес-процессам, и выполнение корректирующих действий. Многие крупные предприятия изо всех сил пытаются поддерживать качество своих данных. 

Важно помнить, что данные не всегда находятся в хранилище и являются статичными, а периодически используются. После создания данные загружаются, корректируются, переформатируются, обмениваются и даже уничтожаются. 

Если все сделано неправильно, каждое действие сопряжено с угрозой негативного влияния на качество данных. В свою очередь, низкое качество данных может привести к возникновению узких мест и часто негативно влияет на решения, принимаемые организацией. Без правильной системы измерения данные низкого качества могут никогда не быть замечены или исправлены.

Многие компании не знают, что у них есть проблемы с качеством данных. Оценка качества данных — небольшая, но очень важная часть максимизации эффективности бизнеса. Проблемы с качеством данных могут быть первыми замечены отделом бизнес-операций организации или ее ИТ-отделом. Первые шаги в проведении оценки качества данных можно считать «этапом осведомленности». 

Оценка качества данных помогает разработать стратегия данных, а хорошо организованная стратегия данных позволит согласовать данные, поддерживая цели, ценности и задачи бизнеса.

Профилирование данных и оценка качества данныхs

Профилирование данных часто считается предварительным шагом к проведению оценки качества данных, хотя некоторые люди считают, что эти два шага следует выполнять одновременно. Профилирование данных занимается пониманием структуры данных, а также их содержания и взаимосвязей. С другой стороны, оценка качества данных оценивает и выявляет проблемы с данными в организации, а также последствия этих проблем.

Полезные показатели оценки качества данных

Метрики оценки качества данных измеряют, среди прочего, насколько актуальными, надежными, точными и последовательными являются данные организации. В зависимости от типа отрасли и целей бизнеса могут потребоваться конкретные показатели, чтобы определить, соответствуют ли данные организации ее требованиям к качеству. Измерение качества данных, понимание того, как используются метрики данных и как функционируют инструменты и лучшие практики, являются необходимым шагом на пути к тому, чтобы стать управляемых данными организации. 

Основные показатели качества данных включают в себя:

Актуальность: Данные могут быть высокого качества, но бесполезны с точки зрения помощи организации в достижении ее целей. Например, компания, специализирующаяся на продаже обуви по индивидуальному заказу, будет заинтересована в полезных данных о доставке, но не будет заинтересована в списке людей, ищущих товары для ремонта обуви. Хранение данных с смутной надеждой, что они будут актуальны позже, — распространенная ошибка. Метаплан предлагает программное обеспечение для измерения релевантности.  

Точность: Точность, которую часто считают наиболее важным показателем качества данных, следует измерять посредством документации источника или какого-либо другого независимого метода подтверждения. Метрика точности также включает изменения состояния данных, происходящие в реальном времени.

Своевременность: Устаревшие данные варьируются от бесполезных до потенциально вредных. Например, контактные данные клиентов, которые никогда не обновляются, нанесут вред маркетинговым кампаниям и рекламе. Существует также возможность доставки продукции на старый, уже не правильный адрес. Хороший бизнес требует обновления всех данных для обеспечения бесперебойных и эффективных бизнес-процессов.

Полнота: Полнота данных обычно определяется путем принятия решения о том, является ли каждая из записей данных «полной» записью данных. Неполные данные часто не дают полезной бизнес-информации. Во многих ситуациях процесс оценки полноты представляет собой субъективное измерение, выполняемое специалистом по данным, а не программным обеспечением для обеспечения качества данных.

Целостность: Целостность данных описывает общую точность, согласованность и полноту данных на протяжении всего их жизненного цикла. Целостность данных также связана с безопасностью данных с точки зрения соблюдения нормативных требований в отношении конфиденциальности и безопасности личной информации.

Консистенция: Различные версии одних и тех же данных могут затруднить ведение бизнеса. Данные и информация должны быть единообразными во всех бизнес-системах, чтобы избежать путаницы. К счастью, программное обеспечение доступно, поэтому каждую версию данных не нужно сравнивать вручную. (Основные данные и его управление это вариант для централизации данных, используемых повторно, и предотвращения создания нескольких версий.)

Подготовка к оценке 

Оценка качества данных будет проходить более эффективно и даст лучшие результаты, если перед оценкой будет составлен список проблем и целей. Создавая этот список, помните о долгосрочных целях организации, перечисляя при этом краткосрочные цели. Например, долгосрочную цель повышения эффективности бизнеса можно разбить на более мелкие цели, такие как исправление системы, чтобы нужные люди получали правильные счета, чтобы адреса всех клиентов были правильными и т. д. 

Этот список также может быть представлен совету директоров в качестве обоснования для запуска и оплаты программного обеспечения для оценки качества данных или найма подрядчика для выполнения оценки. Основные шаги по созданию списка представлены ниже.

  • Начните с составления списка проблем с качеством данных, произошедших за последний год.
  • Потратьте неделю или две, наблюдая за потоком данных, и определите, что выглядит сомнительным и почему.
  • Делитесь своими наблюдениями с другими руководителями и сотрудниками, получайте обратную связь и корректируйте результаты, используя обратную связь.
  • Изучите список проблем с качеством данных и определите, какие из них являются наиболее приоритетными, исходя из того, как они влияют на доход.
  • Перепишите список так, чтобы приоритеты были первыми. (Этот список может быть предоставлен совету директоров и подрядчику по оценке качества данных после определения объема.)
  • Определите объем – какие данные будут учитываться во время оценки?
  • Определите, кто использует данные, и изучите их поведение при использовании данных до и после оценки, чтобы определить, нужно ли им вносить изменения.

Платформы оценки качества данных

Выполнение оценки качества данных вручную требует столько усилий, что большинство менеджеров никогда бы этого не одобрили. К счастью, существуют доступные платформы и решения для обеспечения качества данных. Некоторые используют целостный подход, а другие сосредотачиваются на определенных платформах или инструментах. Платформы оценки качества данных могут помочь организациям справиться с растущими проблемами данных, с которыми они сталкиваются. 

По мере расширения использования услуг облачных и периферийных вычислений организации могут использовать платформы оценки качества данных для анализа, управления и очистки данных, полученных из различных источников, таких как электронная почта, социальные сети и Интернет вещей. Некоторые платформы оценки (включая информационные панели) обсуждаются ниже.

TПлатформа Erwin Data Intelligence Platform использует инструменты обнаружения с поддержкой искусственного интеллекта и машинного обучения для обнаружения закономерностей данных и создает бизнес-правила для оценки качества данных. Платформа анализа данных Erwin автоматизирует оценку качества данных, обеспечивает постоянное наблюдение за данными и включает подробные информационные панели.

Платформа наблюдения за корпоративными данными Acceldata хорошо интегрируется с различными технологиями и хорошо работает с публичными, гибридными и мультиоблачными средами. Он предоставляет высокоэффективную панель мониторинга качества данных и использует алгоритмы автоматизации машинного обучения, чтобы максимизировать эффективность ваших данных. Платформа Acceldata будет обнаруживать и исправлять проблемы в начале конвейера данных, изолируя их до того, как они повлияют на дальнейшую аналитику.

IBM InfoSphere Information Server for Data Quality Platform предоставляет широкий спектр инструментов качества данных, помогающих постоянно анализировать и отслеживать качество данных. Платформа IBM будет очищать и стандартизировать данные, одновременно анализируя и контролируя качество данных, чтобы уменьшить количество неверных или противоречивых данных.

DataMatch Enterprise компании Data Ladder имеет гибкую архитектуру, предоставляющую множество инструментов для очистки и стандартизации данных. Он может быть интегрирован в большинство систем и прост в использовании. Датаматч предприятие — это инструмент самообслуживания по обеспечению качества данных, который может выявлять основные аномалии. Он измеряет точность, полноту, своевременность и т. д. Он также выполняет детальную очистку, сопоставление и объединение данных.

Intellectyx выступает подрядчиком по предоставлению различных услуг по работе с данными, включая предоставление оценок качества данных и решений. Их процесс включает в себя:

  • Выявление потребностей бизнеса
  • Определение показателей качества данных
  • Оценка текущего качества данных
  • Разрабатываем план улучшений

OpenRefine — это не платформа оценки качества данных, а бесплатный мощный инструмент с открытым исходным кодом, предназначенный для работы с беспорядочными данными. Инструмент очистит данные, преобразовав их в соответствующий формат. Данные очищаются в вашей компьютерной системе, а не в облаке для отмывания данных. 

Отчет об оценке

Отчеты об оценке качества данных обычно предназначены для описания результатов оценки, а также наблюдений и рекомендаций. В отчет включены любые аномалии, оказавшие критическое влияние на организацию, а также решения по выявлению и устранению этих аномалий. 

Отчет должен включать:

  • Резюме: введение в сочетании с кратким описанием отчета.
  • Основные выводы: проблемы с потоком данных и их влияние на бизнес.
  • Используемый процесс: Опишите программное обеспечение и процесс. (Если использовался подрядчик, отчет является его ответственностью)
  • Баллы и общие рейтинги (по каждому выпуску)
  • Рекомендации (за выпуск)
  • Открытые вопросы: Любые нерешенные проблемы.
  • Заключение: ожидаемые результаты в бизнесе после внесения изменений, а также наблюдения или советы относительно нерешенных проблем.

Изображение используется по лицензии от Shutterstock.com

Отметка времени:

Больше от ДАТАВЕРСИЯ