Преодоление мира, наводненного грязными данными

Переиздано Платоном

Читают: 0

Подобно невидимому вирусу, «грязные данные» досаждают сегодняшнему деловому миру. Другими словами, неточные, неполные и противоречивые данные множатся в сегодняшнем мире, ориентированном на «большие данные».

Работа с грязными данными обходится компаниям в миллионы долларов ежегодно. Это снижает эффективность и результативность отделов, охватывающих предприятие, и ограничивает усилия по росту и масштабированию. Это снижает конкурентоспособность, повышает риски безопасности и создает проблемы с соблюдением нормативных требований.

Те, кто отвечает за Управление данными боролись с этой проблемой в течение многих лет. Многие из доступных в настоящее время инструментов могут решать проблемы управления данными для разрозненных команд внутри отделов, но не для компании в целом или для более широких экосистем данных. Хуже того, эти инструменты часто в конечном итоге создают еще больше данных, которыми необходимо управлять, и эти данные также могут стать грязными, вызывая больше головной боли и потерю доходов.

Понимание грязных данных

Грязные данные относится к любым данным которые вводят в заблуждение, дублируют, неверны или неточны, еще не интегрированы, нарушают бизнес-правила, не имеют единообразного форматирования или содержат ошибки в пунктуации или орфографии.

Чтобы понять, насколько грязные данные стали повсеместными в последние десятилетия, представьте себе следующий сценарий:

Кредиторы крупного банка приходят в замешательство, когда обнаруживают, что почти все клиенты банка — космонавты. Учитывая, что у НАСА есть только несколько десятков космонавтов, это не имеет никакого смысла.

После дальнейшего изучения кредитный отдел обнаруживает, что банковские служащие, открывая новые счета, вставляли «космонавт» в поле «род занятий клиента». Кредиторы узнают, что описание работы не имеет отношения к их коллегам, ответственным за новые счета. Банковские служащие выбирали «космонавт», первый доступный вариант, просто для того, чтобы быстрее создавать новые учетные записи.

Кредиторы, однако, должны иметь правильные записи о занятиях своих клиентов, чтобы получать свои годовые бонусы. Чтобы исправить ситуацию, кредитный отдел разрабатывает свою, отдельную базу данных. Они связываются с каждым клиентом, узнают правильную профессию и вносят ее в свою базу данных.

Теперь у банка есть две базы данных с практически одинаковой информацией, за исключением одного поля. Если третий отдел хочет получить доступ к информации в этих базах данных, не существует системы, позволяющей определить, какая база данных является точной. Таким образом, этот третий отдел может также создать свою собственную базу данных.

Подобные сценарии разыгрывались в организациях по всей стране на протяжении десятилетий.

Растущие свалки цифровых данных

Проблемы начались в 1990-е годы с цифровое преобразование бум. Компании развернули корпоративное программное обеспечение для улучшения своих бизнес-процессов. Например, продукты Salesforce «программное обеспечение как услуга» позволили лучше управлять системами продаж и маркетинга.

Но 30 лет спустя такая устаревшая инфраструктура превратилась в кошмар управления данными. Разрозненные хранилища данных с множеством повторяющихся, неполных и неверных данных усеивают ландшафты корпораций и государственного сектора. Эти разрозненные структуры включают направления бизнеса, географические регионы и функции, которые соответственно владеют своими источниками данных и контролируют их.

Кроме того, за последние десятилетия генерация данных увеличилась в геометрической прогрессии. Теперь для каждого бизнес-процесса требуется собственное программное обеспечение, производящее все больше данных. Приложения регистрируют каждое действие в своих собственных базах данных, и возникают препятствия для извлечения вновь созданных активов данных.

В предыдущие десятилетия словарь, определяющий данные, был специфичен для бизнес-процесса, который их создал. Инженерам приходилось переводить эти лексиконы в дискретные словари для систем, потребляющих данные. Гарантий качества обычно не существовало. Как и в приведенном выше примере с космонавтом, данные, которые можно было использовать в одной бизнес-функции, были непригодны для других. А доступ к данным исходных бизнес-процессов был ограничен в лучшем случае для функций, которые в противном случае можно было бы оптимизировать.

Загадка копирования

Чтобы решить эту проблему, инженеры начали делать копии оригинальных баз данных, потому что до недавнего времени это был лучший доступный вариант. Затем они преобразовали эти копии в соответствии с требованиями функции-потребителя, применив правила качества данных и логику исправления исключительно для функции-потребителя. Они сделали много копий и загрузили их в несколько хранилищ данных и систем аналитики.

Исход? Избыток копий наборов данных, которые воспринимаются как «грязные» для некоторых частей организации, вызывая путаницу в отношении того, какая копия является правильной. Сегодня компании имеют сотни копий исходных данных в операционных хранилищах данных, базах данных, хранилищах данных, озерах данных, аналитических песочницах и электронных таблицах в центрах обработки данных и нескольких облаках. Тем не менее, директора по информационным технологиям и директора по данным не имеют ни контроля над количеством сгенерированных копий, ни информации о том, какая версия представляет собой подлинный источник правды.

Доступно множество программных продуктов для управления данными, чтобы навести порядок в этом беспорядке. К ним относятся каталоги данных, системы измерения качества данных и разрешения проблем, системы управления справочными данными, системы управления мастер-данными, обнаружение происхождения данных и системы управления.

Но эти средства дороги и требуют много времени. Типичный проект управления основными данными для интеграции данных о клиентах из нескольких источников данных из разных линеек продуктов может занять годы и стоить миллионы долларов. В то же время объем грязных данных растет со скоростью, опережающей организационные усилия по внедрению средств контроля и управления.

Эти подходы изобилуют недостатками. Они полагаются на ручные процессы, логику разработки или бизнес-правила для выполнения задач инвентаризации, измерения и исправления данных.

Восстановление контроля

Три новые технологии лучше всего подходят для решения текущей проблемы: управление данными на основе искусственного интеллекта и машинного обучения, платформы семантической совместимости, такие как графы знаний, и системы распределения данных, такие как распределенные реестры:

1. Решения для управления данными на основе искусственного интеллекта и машинного обучения снизить зависимость от людей и кода. ИИ и машинное обучение заменяют ручную работу действиями, включающими автоматическую пометку, организацию и контроль больших объемов данных. Трансформация и миграция управления данными снижают затраты на ИТ. Организации также могут создавать более надежные и устойчивые архитектуры, которые способствуют повышению качества данных в любом масштабе.

2. Графики знаний обеспечить естественную совместимость разрозненных активов данных, чтобы информацию можно было объединять и понимать в едином формате. Используя семантические онтологии, организации могут защитить данные в будущем с помощью контекста и общего формата для повторного использования несколькими заинтересованными сторонами.

3. Распределенные реестры, дифференциальная конфиденциальность и виртуализация устранить необходимость физического копирования данных. Распределенные реестры включают федеративные и управляемые базы данных, которые можно использовать в бизнес-подразделениях и организациях. Дифференциальная конфиденциальность позволяет маскировать данные, чтобы соответствовать требованиям соответствия, и одновременно делиться ими с заинтересованными сторонами. Виртуализация позволяет накапливать данные в виртуальной, а не в физической среде.

Как только ИТ-директора и директора по информационным технологиям поймут, что корень проблемы заключается в устаревшей инфраструктуре, которая создает хранилища данных, они могут улучшить базовые архитектуры и стратегии инфраструктуры данных.

Грязные данные ограничивают способность организации принимать обоснованные решения и работать с точностью и гибкостью. Организации должны контролировать свои данные и поощрять совместимость, качество и доступность данных. Это обеспечит конкурентные преимущества и устранит уязвимости в области безопасности и соответствия требованиям.

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://www.dataversity.net/overcoming-a-world-awash-in-dirty-data/

Отметка времени: 10 апреля 2023

Больше от ДАТАВЕРСИЯ

Создание успешной стратегии качества данных – DATAVERSITY

ДАТАВЕРСИЯ

Исходный узел: 2854562

Отметка времени: Август 30, 2023

Этика и инновации ИИ для разработки продуктов

Исходный кластер:

ДАТАВЕРСИЯ

Исходный узел: 2625763

Отметка времени: 3 мая 2023

Переиздано Платоном

Создание успешной стратегии качества данных – DATAVERSITY

Демонстрация Couchbase: требования к современным приложениям — DATAVERSITY

Объяснение архитектуры нулевого доверия – DATAVERSITY

Отказ от гравитации данных для лучшего облака

SingleStore представляет новые возможности платформы данных в реальном времени – DATAVERSITY

Слайды Data-Ed: лучшие практики управления данными

Моя карьера в сфере данных. Эпизод 47: Эван Леви, партнер Integral Data – DATAVERSITY

Этика и инновации ИИ для разработки продуктов

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись