Подолання затоплення світу брудними даними

Подолання затоплення світу брудними даними

Вихідний вузол: 2574986

Як невидимий вірус, «брудні дані» вражають сучасний діловий світ. Тобто, неточні, неповні та суперечливі дані поширюються в сучасному світі, орієнтованому на «великі дані».

Робота з брудними даними обходиться компаніям у мільйони доларів щорічно. Це знижує ефективність і результативність відділів, що охоплюють підприємство, і обмежує зусилля щодо зростання та масштабування. Це перешкоджає конкурентоспроможності, підвищує ризики безпеки та створює проблеми з відповідністю.

Відповідальні за Управління даними боролися з цим викликом роками. Багато з доступних на даний момент інструментів можуть вирішувати проблеми керування даними для відокремлених команд у відділах, але не для компанії в цілому чи для ширших екосистем даних. Гірше того, ці інструменти часто призводять до створення ще більшої кількості даних, якими потрібно керувати, і ці дані також можуть стати брудними, спричиняючи більше головного болю та втрату прибутку.

Розуміння брудних даних

Брудні дані відноситься до будь-яких даних які вводять в оману, дублюються, неправильні чи неточні, ще не інтегровані, порушують бізнес-правила, не мають єдиного форматування або містять помилки пунктуації чи орфографії.

Щоб зрозуміти, наскільки брудні дані стали всюдисущими за останні десятиліття, уявіть такий сценарій: 

Кредитори великого банку приходять в замішання, коли виявляють, що майже всі клієнти банку — астронавти. Враховуючи, що NASA має лише a кілька десятків космонавтів, це не має сенсу. 

Після подальшого дослідження кредитний відділ виявляє, що банківські службовці, відкриваючи нові рахунки, вставляли слово «космонавт» у поле професії клієнта. Кредитори дізнаються, що посадова інструкція не має відношення до їхніх колег, відповідальних за нові рахунки. Офіцери банку вибрали «космонавт», першу доступну опцію, просто щоб швидше рухатися у створенні нових рахунків.

Однак кредитори повинні реєструвати точні професії своїх клієнтів, щоб отримати їхні річні бонуси. Щоб виправити ситуацію, відділ кредитування створює власну окрему базу даних. Вони зв’язуються з кожним клієнтом, дізнаються правильну професію та вносять її в свою базу даних.

Зараз банк має дві бази даних з практично однаковою інформацією, за винятком одного поля. Якщо третій відділ хоче отримати доступ до інформації в цих базах даних, не існує системи, щоб визначити, яка база даних точна. Отже, цей третій відділ також може створити власну базу даних.

Подібні сценарії відбувалися в організаціях по всій країні протягом десятиліть.

Зростання звалищ цифрових даних

Проблеми почалися в 1990-х роках з цифрове перетворення бум. Компанії розгорнули корпоративне програмне забезпечення для покращення своїх бізнес-процесів. Наприклад, продукти програмного забезпечення як послуги від Salesforce дозволили краще керувати системами продажів і маркетингу.

Але через 30 років така застаріла інфраструктура призвела до кошмару керування даними. Розрізнені бункери даних із купою повторюваної, неповної та невірної інформації прикрашають ландшафти корпоративного та державного секторів. Ці силоси включають напрямки діяльності, географічні регіони та функції, які відповідно володіють і контролюють свої джерела даних.

Крім того, за десятиліття обсяги виробництва даних експоненціально зросли. Кожен бізнес-процес тепер потребує власного програмного забезпечення, яке створює все більше даних. Програми реєструють кожну дію у своїх рідних базах даних, і з’явилися перешкоди для видобутку щойно створених активів даних.

У попередні десятиліття дані визначення словника були специфічними для бізнес-процесу, який їх створив. Інженерам довелося перевести ці лексикони в окремі словники для систем, які споживають дані. Гарантій якості зазвичай не було. Як у прикладі з астронавтом вище, дані, які були придатні для використання однією бізнес-функцією, були непридатними для інших. А доступ до даних з оригінальних бізнес-процесів був обмежений, у кращому випадку, для функцій, які інакше могли б досягти оптимізації.

Головоломка копіювання

Щоб вирішити цю проблему, інженери почали робити копії оригінальних баз даних, оскільки донедавна це був найкращий доступний варіант. Потім вони трансформували ці копії, щоб задовольнити вимоги функції споживання, застосовуючи правила якості даних і логіку виправлення, виняткову для функції споживання. Вони зробили багато копій і завантажили їх у численні сховища даних і аналітичні системи.

Результат? Переповнення копій набору даних, які читаються як «брудні» для деяких підрозділів організації, викликаючи плутанину щодо того, яка копія є правильною. Сьогодні компанії мають сотні копій вихідних даних у сховищах оперативних даних, базах даних, сховищах даних, озерах даних, аналітичних пісочницях і електронних таблицях у центрах обробки даних і кількох хмарах. Тим не менш, керівники інформаційних відділів і керівники даних не мають контролю над кількістю створених копій і не знають, яка версія є справжнім джерелом правди.

Доступно безліч програмних продуктів для управління даними, щоб навести порядок у цьому безладі. До них належать каталоги даних, системи вимірювання якості даних і вирішення проблем, системи керування довідковими даними, системи керування основними даними, виявлення походження даних і системи керування.

Але ці засоби є дорогими та трудомісткими. Типовий проект керування основними даними для інтеграції даних клієнтів із кількох джерел даних із різних ліній продуктів може зайняти роки та коштувати мільйони доларів. У той же час обсяг брудних даних зростає зі швидкістю, яка випереджає організаційні зусилля щодо встановлення засобів контролю та управління.

Ці підходи рясніють недоліками. Вони покладаються на ручні процеси, логіку розробки або бізнес-правила для виконання завдань інвентаризації, вимірювання та виправлення даних. 

Відновлення контролю

Три нові технології найкраще підходять для вирішення нинішньої скрутної ситуації: управління даними на основі ШІ та машинного навчання, платформи семантичної сумісності, такі як графи знань, і системи розподілу даних, такі як розподілені книги: 

1. Рішення для керування даними на основі ШІ та машинного навчання зменшити залежність від людей і коду. Штучний інтелект і машинне навчання замінюють ручну роботу діями, які включають автоматичне позначення, упорядкування та контроль масивних масивів даних. Трансформація та міграція керування даними зменшує витрати на ІТ. Організації також можуть створювати більш надійні та стійкі архітектури, які сприятимуть підвищенню якості даних у масштабі.

2. Графи знань дозволяють нативну взаємодію розрізнених ресурсів даних, щоб інформацію можна було об’єднати та зрозуміти в загальному форматі. Використовуючи семантичні онтології, організації можуть отримувати перспективні дані з контекстом і загальним форматом для повторного використання кількома зацікавленими сторонами.

3. Розподілені книги, диференціальна конфіденційність і віртуалізація усунення необхідності фізичного копіювання даних. Розподілені книги містять об’єднані та керовані бази даних, які можна використовувати в бізнес-підрозділах і організаціях. Диференційована конфіденційність дає змогу маскувати дані, щоб відповідати вимогам відповідності, водночас надаючи доступ до них зацікавленим сторонам. Віртуалізація дозволяє отримувати дані у віртуальному, а не фізичному середовищі.

Щойно ІТ-директори та директори з директорів з інформаційних технологій зрозуміють, що корінь проблеми полягає в застарілій інфраструктурі, яка створює накопичувачі даних, вони можуть покращити базові архітектури та стратегії інфраструктури даних.

Брудні дані обмежують здатність організації приймати обґрунтовані рішення та працювати з точністю та гнучкістю. Організації повинні контролювати свої дані та заохочувати взаємодію, якість і доступність даних. Це забезпечить конкурентні переваги та усуне вразливі місця в безпеці та дотриманні вимог.

Часова мітка:

Більше від ПЕРЕДАЧА