Подобно невидимому вирусу, «грязные данные» досаждают сегодняшнему деловому миру. Другими словами, неточные, неполные и противоречивые данные множатся в сегодняшнем мире, ориентированном на «большие данные».
Работа с грязными данными обходится компаниям в миллионы долларов ежегодно. Это снижает эффективность и результативность отделов, охватывающих предприятие, и ограничивает усилия по росту и масштабированию. Это снижает конкурентоспособность, повышает риски безопасности и создает проблемы с соблюдением нормативных требований.
Те, кто отвечает за Управление данными боролись с этой проблемой в течение многих лет. Многие из доступных в настоящее время инструментов могут решать проблемы управления данными для разрозненных команд внутри отделов, но не для компании в целом или для более широких экосистем данных. Хуже того, эти инструменты часто в конечном итоге создают еще больше данных, которыми необходимо управлять, и эти данные также могут стать грязными, вызывая больше головной боли и потерю доходов.
Понимание грязных данных
Грязные данные относится к любым данным которые вводят в заблуждение, дублируют, неверны или неточны, еще не интегрированы, нарушают бизнес-правила, не имеют единообразного форматирования или содержат ошибки в пунктуации или орфографии.
Чтобы понять, насколько грязные данные стали повсеместными в последние десятилетия, представьте себе следующий сценарий:
Кредиторы крупного банка приходят в замешательство, когда обнаруживают, что почти все клиенты банка — космонавты. Учитывая, что у НАСА есть только несколько десятков космонавтов, это не имеет никакого смысла.
После дальнейшего изучения кредитный отдел обнаруживает, что банковские служащие, открывая новые счета, вставляли «космонавт» в поле «род занятий клиента». Кредиторы узнают, что описание работы не имеет отношения к их коллегам, ответственным за новые счета. Банковские служащие выбирали «космонавт», первый доступный вариант, просто для того, чтобы быстрее создавать новые учетные записи.
Кредиторы, однако, должны иметь правильные записи о занятиях своих клиентов, чтобы получать свои годовые бонусы. Чтобы исправить ситуацию, кредитный отдел разрабатывает свою, отдельную базу данных. Они связываются с каждым клиентом, узнают правильную профессию и вносят ее в свою базу данных.
Теперь у банка есть две базы данных с практически одинаковой информацией, за исключением одного поля. Если третий отдел хочет получить доступ к информации в этих базах данных, не существует системы, позволяющей определить, какая база данных является точной. Таким образом, этот третий отдел может также создать свою собственную базу данных.
Подобные сценарии разыгрывались в организациях по всей стране на протяжении десятилетий.
Растущие свалки цифровых данных
Проблемы начались в 1990-е годы с цифровое преобразование бум. Компании развернули корпоративное программное обеспечение для улучшения своих бизнес-процессов. Например, продукты Salesforce «программное обеспечение как услуга» позволили лучше управлять системами продаж и маркетинга.
Но 30 лет спустя такая устаревшая инфраструктура превратилась в кошмар управления данными. Разрозненные хранилища данных с множеством повторяющихся, неполных и неверных данных усеивают ландшафты корпораций и государственного сектора. Эти разрозненные структуры включают направления бизнеса, географические регионы и функции, которые соответственно владеют своими источниками данных и контролируют их.
Кроме того, за последние десятилетия генерация данных увеличилась в геометрической прогрессии. Теперь для каждого бизнес-процесса требуется собственное программное обеспечение, производящее все больше данных. Приложения регистрируют каждое действие в своих собственных базах данных, и возникают препятствия для извлечения вновь созданных активов данных.
В предыдущие десятилетия словарь, определяющий данные, был специфичен для бизнес-процесса, который их создал. Инженерам приходилось переводить эти лексиконы в дискретные словари для систем, потребляющих данные. Гарантий качества обычно не существовало. Как и в приведенном выше примере с космонавтом, данные, которые можно было использовать в одной бизнес-функции, были непригодны для других. А доступ к данным исходных бизнес-процессов был ограничен в лучшем случае для функций, которые в противном случае можно было бы оптимизировать.
Загадка копирования
Чтобы решить эту проблему, инженеры начали делать копии оригинальных баз данных, потому что до недавнего времени это был лучший доступный вариант. Затем они преобразовали эти копии в соответствии с требованиями функции-потребителя, применив правила качества данных и логику исправления исключительно для функции-потребителя. Они сделали много копий и загрузили их в несколько хранилищ данных и систем аналитики.
Исход? Избыток копий наборов данных, которые воспринимаются как «грязные» для некоторых частей организации, вызывая путаницу в отношении того, какая копия является правильной. Сегодня компании имеют сотни копий исходных данных в операционных хранилищах данных, базах данных, хранилищах данных, озерах данных, аналитических песочницах и электронных таблицах в центрах обработки данных и нескольких облаках. Тем не менее, директора по информационным технологиям и директора по данным не имеют ни контроля над количеством сгенерированных копий, ни информации о том, какая версия представляет собой подлинный источник правды.
Доступно множество программных продуктов для управления данными, чтобы навести порядок в этом беспорядке. К ним относятся каталоги данных, системы измерения качества данных и разрешения проблем, системы управления справочными данными, системы управления мастер-данными, обнаружение происхождения данных и системы управления.
Но эти средства дороги и требуют много времени. Типичный проект управления основными данными для интеграции данных о клиентах из нескольких источников данных из разных линеек продуктов может занять годы и стоить миллионы долларов. В то же время объем грязных данных растет со скоростью, опережающей организационные усилия по внедрению средств контроля и управления.
Эти подходы изобилуют недостатками. Они полагаются на ручные процессы, логику разработки или бизнес-правила для выполнения задач инвентаризации, измерения и исправления данных.
Восстановление контроля
Три новые технологии лучше всего подходят для решения текущей проблемы: управление данными на основе искусственного интеллекта и машинного обучения, платформы семантической совместимости, такие как графы знаний, и системы распределения данных, такие как распределенные реестры:
1. Решения для управления данными на основе искусственного интеллекта и машинного обучения снизить зависимость от людей и кода. ИИ и машинное обучение заменяют ручную работу действиями, включающими автоматическую пометку, организацию и контроль больших объемов данных. Трансформация и миграция управления данными снижают затраты на ИТ. Организации также могут создавать более надежные и устойчивые архитектуры, которые способствуют повышению качества данных в любом масштабе.
2. Графики знаний обеспечить естественную совместимость разрозненных активов данных, чтобы информацию можно было объединять и понимать в едином формате. Используя семантические онтологии, организации могут защитить данные в будущем с помощью контекста и общего формата для повторного использования несколькими заинтересованными сторонами.
3. Распределенные реестры, дифференциальная конфиденциальность и виртуализация устранить необходимость физического копирования данных. Распределенные реестры включают федеративные и управляемые базы данных, которые можно использовать в бизнес-подразделениях и организациях. Дифференциальная конфиденциальность позволяет маскировать данные, чтобы соответствовать требованиям соответствия, и одновременно делиться ими с заинтересованными сторонами. Виртуализация позволяет накапливать данные в виртуальной, а не в физической среде.
Как только ИТ-директора и директора по информационным технологиям поймут, что корень проблемы заключается в устаревшей инфраструктуре, которая создает хранилища данных, они могут улучшить базовые архитектуры и стратегии инфраструктуры данных.
Грязные данные ограничивают способность организации принимать обоснованные решения и работать с точностью и гибкостью. Организации должны контролировать свои данные и поощрять совместимость, качество и доступность данных. Это обеспечит конкурентные преимущества и устранит уязвимости в области безопасности и соответствия требованиям.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://www.dataversity.net/overcoming-a-world-awash-in-dirty-data/
- :является
- $UP
- a
- способность
- О нас
- выше
- доступ
- доступность
- Учетные записи
- точный
- достигнутый
- через
- Действие
- действия
- адрес
- придерживаться
- Преимущества
- AI
- Все
- аналитика
- и
- годовой
- Ежегодно
- кроме
- Приложения
- Применение
- подходы
- МЫ
- AS
- Активы
- астронавт
- At
- доступен
- Банка
- BE
- , так как:
- становиться
- начал
- ЛУЧШЕЕ
- Лучшая
- бонусов
- бум
- приносить
- шире
- строить
- бизнес
- Бизнес-процесс
- деловые процессы
- by
- CAN
- каталоги
- Причинение
- Центры
- вызов
- заряд
- главный
- код
- сочетании
- Общий
- Компании
- Компания
- конкурентоспособный
- конкурентоспособность
- Соответствие закону
- замешательство
- принимая во внимание
- обращайтесь
- контекст
- контроль
- контрольная
- копии
- Корпоративное
- Цена
- Расходы
- Создайте
- создали
- создает
- Создающий
- Текущий
- В настоящее время
- клиент
- данные клиентов
- Клиенты
- данным
- центров обработки данных
- инфраструктура данных
- управление данными
- Качество данных
- хранилища данных
- База данных
- базы данных
- ДАТАВЕРСИЯ
- десятилетия
- решения
- определяющий
- Кафедра
- ведомства
- Зависимость
- развернуть
- описание
- Определять
- Развитие
- развивается
- различный
- обнаружить
- Обнаруживает
- открытие
- безрассудство
- распределенный
- распределенные книги
- распределение
- дело
- долларов
- дюжина
- каждый
- Экосистемы
- эффективность
- затрат
- усилия
- появление
- новые технологии
- включен
- поощрять
- Инженеры
- Предприятие
- корпоративное программное обеспечение
- Окружающая среда
- ошибки
- по существу
- Даже
- Каждая
- пример
- Эксклюзивные
- выполнять
- существует
- дорогим
- исследование
- экспоненциально
- поле
- Во-первых,
- недостатки
- после
- Что касается
- формат
- часто
- от
- функция
- Функции
- далее
- генерируется
- поколение
- географии
- управление
- Графики
- схватывание
- Расти
- гарантии
- Есть
- головные боли
- кашель
- Как
- Однако
- HTTPS
- Сотни
- улучшать
- in
- неточный
- включают
- расширились
- повышение
- информация
- Информационные офицеры
- сообщил
- Инфраструктура
- устанавливать
- пример
- интегрировать
- интегрированный
- Взаимодействие
- вопрос
- вопросы
- IT
- ЕГО
- работа
- знания
- большой
- УЧИТЬСЯ
- изучение
- гроссбухи
- Наследие
- кредиторы
- кредитование
- Используя
- Ограниченный
- рамки
- линий
- от
- машина
- обучение с помощью машины
- сделанный
- сделать
- ДЕЛАЕТ
- управлять
- управляемого
- управление
- руководство
- ручная работа
- многих
- Маркетинг
- маска
- массивный
- мастер
- Май..
- измерение
- может быть
- миграция
- миллионы
- Горнодобывающая промышленность
- БОЛЕЕ
- двигаться
- с разными
- НАСА
- Общенациональный
- родной
- Необходимость
- ни
- Новые
- номер
- препятствиями
- получать
- оккупация
- of
- офицеров
- on
- ONE
- открытие
- работать
- оперативный
- оптимизация
- Опция
- заказ
- организация
- организационной
- организации
- организации
- оригинал
- Другое
- в противном случае
- Результат
- собственный
- части
- Люди
- физический
- Физически
- Язвы
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- играл
- возможное
- Точность
- разрабатывает
- предыдущий
- политикой конфиденциальности.
- Проблема
- проблемам
- процесс
- Процессы
- Продукт
- Продукция
- Проект
- государственный сектор
- скорее
- Читать
- последний
- недавно
- запись
- уменьшить
- замещать
- представляет
- Требования
- Постановления
- соответственно
- ответственный
- снова использовать
- доходы
- рисках,
- надежный
- корень
- условиями,
- главная
- Продажи и маркетинг
- Salesforce
- то же
- песочницы
- Шкала
- сценарий
- Сценарии
- безопасность
- риски безопасности
- выбор
- смысл
- отдельный
- разделение
- просто
- одновременно
- ситуация
- So
- Software
- РЕШАТЬ
- некоторые
- Источник
- Источники
- конкретный
- скорость
- заинтересованных сторон
- магазины
- стратегий
- такие
- комфортного
- система
- системы
- взять
- задачи
- команды
- технологии
- который
- Ассоциация
- информация
- их
- Их
- Эти
- В третьих
- время
- в
- сегодня
- Сегодняшних
- слишком
- инструменты
- трансформация
- преобразован
- переведите
- беда
- Правда
- типичный
- типично
- вездесущий
- под
- лежащий в основе
- понимать
- понимать
- единиц
- годный к употреблению
- версия
- Виртуальный
- вирус
- объем
- Уязвимости
- способы
- который
- в то время как
- будете
- в
- Работа
- Мир
- лет
- зефирнет