Pokonanie świata zalanego brudnymi danymi

Pokonanie świata zalanego brudnymi danymi

Węzeł źródłowy: 2574986

Jak niewidzialny wirus, „brudne dane” nękają dzisiejszy świat biznesu. Oznacza to, że w dzisiejszym świecie skoncentrowanym na „dużych zbiorach danych” mnożą się niedokładne, niekompletne i niespójne dane.

Praca z brudnymi danymi kosztuje firmy miliony dolarów rocznie. Zmniejsza wydajność i efektywność działów obejmujących przedsiębiorstwo i ogranicza wysiłki na rzecz wzrostu i skalowania. Utrudnia to konkurencyjność, zwiększa zagrożenia dla bezpieczeństwa i stwarza problemy ze zgodnością.

Osoby odpowiedzialne za Zarządzanie danymi zmagają się z tym wyzwaniem od lat. Wiele z obecnie dostępnych narzędzi może rozwiązywać problemy z zarządzaniem danymi w zespołach silosowych w działach, ale nie w całej firmie ani w szerszych ekosystemach danych. Co gorsza, narzędzia te często powodują tworzenie jeszcze większej ilości danych, którymi trzeba zarządzać – a te dane również mogą ulec zabrudzeniu, powodując więcej problemów i utratę przychodów.

Zrozumienie brudnych danych

Brudne dane odnosi się do jakichkolwiek danych które wprowadzają w błąd, są zduplikowane, nieprawidłowe lub niedokładne, jeszcze niezintegrowane, naruszają reguły biznesowe, nie mają jednolitego formatowania lub zawierają błędy interpunkcyjne lub ortograficzne.

Aby zrozumieć, jak brudne dane stały się wszechobecne w ostatnich dziesięcioleciach, wyobraź sobie następujący scenariusz: 

Kredytodawcy w dużym banku są zakłopotani, gdy odkrywają, że prawie wszyscy klienci banku to astronauci. Biorąc pod uwagę, że NASA ma tylko kilkudziesięciu astronautów, to nie ma sensu. 

Po dalszych badaniach dział kredytowy odkrywa, że ​​funkcjonariusze bankowi otwierający nowe konta wprowadzali „astronautę” do pola zawodu klienta. Pożyczkodawcy dowiadują się, że opis stanowiska nie ma znaczenia dla ich odpowiedników odpowiedzialnych za nowe rachunki. Urzędnicy bankowi wybierali „astronautę”, pierwszą dostępną opcję, po prostu po to, aby szybciej tworzyć nowe konta.

Pożyczkodawcy muszą jednak mieć zarejestrowane prawidłowe zawody swoich klientów, aby otrzymać roczne premie. Aby zaradzić tej sytuacji, dział pożyczkowy rozwija własną, odrębną bazę danych. Kontaktują się z każdym klientem, uczą się właściwego zawodu i wprowadzają go do swojej bazy danych.

Teraz bank ma dwie bazy danych z zasadniczo tymi samymi informacjami, z wyjątkiem jednego pola. Jeśli trzeci dział chce uzyskać dostęp do informacji w tych bazach danych, nie istnieje żaden system pozwalający określić, która baza danych jest dokładna. Tak więc ten trzeci dział może również stworzyć własną bazę danych.

Podobne scenariusze rozgrywają się w organizacjach w całym kraju od dziesięcioleci.

Rosnące składowiska danych cyfrowych

Kłopoty zaczęły się w latach 1990 transformacja cyfrowy Bum. Firmy wdrożyły oprogramowanie dla przedsiębiorstw, aby usprawnić swoje procesy biznesowe. Na przykład produkty Salesforce typu oprogramowanie jako usługa umożliwiły lepsze sposoby zarządzania systemami sprzedaży i marketingu.

Jednak 30 lat później taka przestarzała infrastruktura doprowadziła do koszmaru zarządzania danymi. Rozbieżne silosy danych z ryzami zduplikowanych, niekompletnych i niepoprawnych informacji wypełniają krajobrazy korporacyjne i sektora publicznego. Te silosy obejmują linie biznesowe, obszary geograficzne i funkcje, które odpowiednio posiadają i nadzorują swoje źródła danych.

Poza tym generowanie danych wzrosło wykładniczo na przestrzeni dziesięcioleci. Każdy proces biznesowy wymaga teraz własnego oprogramowania, generującego coraz więcej danych. Aplikacje rejestrują każde działanie w swoich natywnych bazach danych i pojawiły się przeszkody w eksploracji nowo utworzonych zasobów danych.

W poprzednich dziesięcioleciach dane definiujące słownictwo były specyficzne dla procesu biznesowego, który je tworzył. Inżynierowie musieli przetłumaczyć te leksykony na oddzielne słowniki dla systemów zużywających dane. Gwarancje jakości zazwyczaj nie istniały. Tak jak w powyższym przykładzie z astronautą, dane, które były użyteczne dla jednej funkcji biznesowej, były bezużyteczne dla innych. A dostęp do danych z oryginalnych procesów biznesowych był w najlepszym razie ograniczony do funkcji, które w przeciwnym razie mogłyby zostać zoptymalizowane.

Zagadka kopiowania

Aby rozwiązać ten problem, inżynierowie zaczęli tworzyć kopie oryginalnych baz danych, ponieważ do niedawna była to najlepsza dostępna opcja. Następnie przekształcili te kopie, aby spełnić wymagania funkcji konsumującej, stosując reguły jakości danych i logikę naprawczą wyłącznie dla funkcji konsumującej. Wykonali wiele kopii i załadowali je do wielu hurtowni danych i systemów analitycznych.

Wynik? Przepełnienie kopii zestawu danych, które są odczytywane jako „brudne” w niektórych częściach organizacji, powodując zamieszanie co do tego, która kopia jest właściwa. Firmy mają dziś setki kopii danych źródłowych w operacyjnych magazynach danych, bazach danych, hurtowniach danych, jeziorach danych, analitycznych piaskownicach i arkuszach kalkulacyjnych w centrach danych i wielu chmurach. Jednak główni urzędnicy ds. informacji i główni urzędnicy ds. danych nie mają kontroli nad liczbą generowanych kopii ani wiedzą, która wersja stanowi prawdziwe źródło prawdy.

Dostępnych jest wiele produktów oprogramowania Data Governance, które zaprowadzą porządek w tym bałaganie. Należą do nich katalogi danych, systemy pomiaru jakości danych i rozwiązywania problemów, systemy zarządzania danymi referencyjnymi, systemy zarządzania danymi podstawowymi, wykrywanie pochodzenia danych i systemy zarządzania.

Ale te środki zaradcze są drogie i czasochłonne. Typowy projekt zarządzania danymi podstawowymi mający na celu integrację danych klientów z wielu źródeł danych z różnych linii produktów może zająć lata i kosztować miliony dolarów. Jednocześnie ilość brudnych danych rośnie z prędkością, która przewyższa wysiłki organizacji mające na celu zainstalowanie kontroli i zarządzania.

Podejścia te są pełne wad. Opierają się na ręcznych procesach, logice programistycznej lub regułach biznesowych, aby wykonywać zadania inwentaryzacji, pomiaru i korygowania danych. 

Odzyskiwanie kontroli

Trzy nowe technologie najlepiej nadają się do rozwiązania obecnej sytuacji: zarządzanie danymi oparte na sztucznej inteligencji i uczeniu maszynowym, semantyczne platformy interoperacyjności, takie jak grafy wiedzy, oraz systemy dystrybucji danych, takie jak rozproszone księgi rachunkowe: 

1. Rozwiązania Data Governance oparte na sztucznej inteligencji i uczeniu maszynowym zmniejszyć zależność od ludzi i kodu. Sztuczna inteligencja i uczenie maszynowe zastępują pracę ręczną czynnościami obejmującymi automatyczne tagowanie, organizowanie i nadzorowanie ogromnych zbiorów danych. Transformacja i migracja zarządzania danymi zmniejsza koszty IT. Organizacje mogą również budować solidniejsze i bardziej zrównoważone architektury, które sprzyjają jakości danych na dużą skalę.

2. Grafy wiedzy umożliwiają natywną interoperacyjność różnych zasobów danych, tak aby informacje mogły być łączone i rozumiane w ramach wspólnego formatu. Wykorzystując ontologie semantyczne, organizacje mogą zabezpieczać dane w przyszłości za pomocą kontekstu i wspólnego formatu do ponownego wykorzystania przez wielu interesariuszy.

3. Księgi rozproszone, prywatność różnicowa i wirtualizacja wyeliminować konieczność fizycznego kopiowania danych. Rozproszone księgi rachunkowe obejmują sfederowane i zarządzane bazy danych, których można używać w różnych jednostkach biznesowych i organizacjach. Prywatność różnicowa umożliwia maskowanie danych w celu zachowania zgodności z wymogami, a jednocześnie udostępnianie ich interesariuszom. Wirtualizacja umożliwia obracanie danych w środowisku wirtualnym, a nie fizycznym.

Kiedy CIO i CDO zrozumieją, że źródłem problemu jest przestarzała infrastruktura, która tworzy silosy danych, mogą udoskonalić podstawowe architektury i strategie infrastruktury danych.

Brudne dane ograniczają zdolność organizacji do podejmowania świadomych decyzji oraz działania z precyzją i sprawnością. Organizacje muszą przejąć kontrolę nad swoimi danymi i zachęcać do interoperacyjności, jakości i dostępności danych. Takie postępowanie zapewni przewagę konkurencyjną i wyeliminuje luki w zabezpieczeniach i zgodności.

Znak czasu:

Więcej z WSZECHSTRONNOŚĆ DANYCH