Ocena jakości danych: Pomiar sukcesu – DATAVERSITY

Ocena jakości danych: Pomiar sukcesu – DATAVERSITY

Węzeł źródłowy: 2903188
ocena jakości danychocena jakości danych

Celem oceny jakości danych jest nie tylko identyfikacja nieprawidłowych danych, ale także oszacowanie szkód wyrządzonych procesom biznesowym i wdrożenie działań naprawczych. Wiele dużych firm ma trudności z utrzymaniem jakości swoich danych. 

Należy pamiętać, że dane nie zawsze są przechowywane i statyczne, ale są okresowo wykorzystywane. Po utworzeniu dane są pobierane, dostosowywane, ponownie formatowane, wymieniane, a nawet niszczone. 

Każde działanie, jeśli zostanie wykonane nieprawidłowo, niesie ze sobą ryzyko negatywnego wpływu na jakość danych. Z kolei niska jakość danych może powodować wąskie gardła i często negatywnie wpływać na decyzje podejmowane przez organizację. Bez odpowiedniego systemu pomiarowego dane niskiej jakości mogą nigdy nie zostać zauważone ani skorygowane.

Wiele firm nie wie, że ma problemy z jakością danych. Ocena jakości danych to niewielka, ale bardzo ważna część maksymalizacji wydajności firmy. Problemy z jakością danych mogą w pierwszej kolejności zostać zauważone przez dział IT lub operacje biznesowe organizacji. Początkowe etapy przeprowadzania oceny jakości danych można uznać za „fazę świadomości”. 

Ocena jakości danych wspiera rozwój: strategia danych, a dobrze zorganizowana strategia dotycząca danych skoordynuje dane, wspierając cele, wartości i zadania firmy.

Profilowanie danych a ocena jakości danychs

Profilowanie danych jest często uważane za wstępny etap przeprowadzenia oceny jakości danych, choć niektórzy uważają, że te dwa etapy należy wykonywać jednocześnie. Profilowanie danych zajmuje się zrozumieniem struktury danych, a także ich zawartości i wzajemnych powiązań. Z drugiej strony ocena jakości danych ocenia i identyfikuje problemy z danymi organizacji oraz konsekwencje tych problemów.

Przydatne wskaźniki oceny jakości danych

Metryki oceny jakości danych mierzą między innymi stopień przydatności, wiarygodności, dokładności i spójności danych organizacji. W zależności od rodzaju branży i celów firmy mogą być potrzebne określone wskaźniki, aby określić, czy dane organizacji spełniają jej wymagania jakościowe. Pomiar jakości danych, zrozumienie, w jaki sposób wykorzystywane są metryki danych oraz jak działają narzędzia i najlepsze praktyki, to niezbędny krok, aby stać się sterowane danymi organizacja. 

Podstawowe wskaźniki jakości danych obejmują:

Stosowność: Dane mogą być wysokiej jakości, ale bezużyteczne, jeśli chodzi o pomoc organizacji w osiąganiu jej celów. Na przykład firma zajmująca się sprzedażą butów na zamówienie byłaby zainteresowana przydatnymi danymi dotyczącymi wysyłki, ale nie byłaby zainteresowana listą osób poszukujących produktów do naprawy butów. Częstym błędem jest przechowywanie danych z niejasną nadzieją, że będą one później przydatne. Metaplan oferuje oprogramowanie do pomiaru trafności.  

Dokładność: Często uważana za najważniejszy pomiar jakości danych, dokładność powinna być mierzona poprzez dokumentację źródła lub inną niezależną technikę potwierdzania. Metryka dokładności obejmuje również zmiany stanu danych w czasie rzeczywistym.

Aktualność: Nieaktualne dane mogą być zarówno bezużyteczne, jak i potencjalnie szkodliwe. Na przykład dane kontaktowe klientów, które nigdy nie są aktualizowane, zaszkodzą kampaniom marketingowym i reklamom. Istnieje również możliwość wysyłki produktów na stary, już nieaktualny adres. Dobry biznes wymaga aktualizacji wszystkich danych, aby procesy biznesowe przebiegały sprawnie i efektywnie.

Kompletność: Kompletność danych jest zwykle określana poprzez podjęcie decyzji, czy każdy z wpisów danych jest wpisem „kompletnym”. Niekompletne dane często nie dostarczają przydatnych informacji biznesowych. W wielu sytuacjach proces oceny kompletności jest subiektywnym pomiarem dokonywanym przez specjalistę ds. danych, a nie oprogramowanie do kontroli jakości danych.

Integralność: Integralność danych opisuje ogólną dokładność, spójność i kompletność danych w całym ich cyklu życia. Integralność danych wiąże się również z bezpieczeństwem danych pod względem zgodności z przepisami dotyczącymi prywatności i bezpieczeństwa osobistego.

Konsystencja: Różne wersje tych samych danych mogą utrudniać prowadzenie działalności gospodarczej. Dane i informacje muszą być spójne we wszystkich systemach firmy, aby uniknąć nieporozumień. Na szczęście dostępne jest oprogramowanie, dzięki czemu nie trzeba ręcznie porównywać każdej wersji danych. (Dane podstawowe i jego zarządzanie to opcja centralizacji danych używanych wielokrotnie i uniknięcia wielu wersji.)

Przygotowanie do oceny 

Ocena jakości danych będzie przebiegać sprawniej i zapewni lepsze wyniki, jeśli przed oceną utworzona zostanie lista obaw i celów. Tworząc tę ​​listę, miej świadomość długoterminowych celów organizacji, wymieniając jednocześnie cele krótkoterminowe. Na przykład długoterminowy cel, jakim jest zwiększenie wydajności firmy, można podzielić na mniejsze cele, takie jak naprawienie systemu tak, aby właściwi ludzie otrzymywali właściwe rachunki, czy adresy wszystkich klientów były prawidłowe itp. 

Lista ta może być również przedstawiona zarządowi jako uzasadnienie rozpoczęcia i opłacenia oprogramowania do oceny jakości danych lub zatrudnienia wykonawcy do przeprowadzenia oceny. Poniżej przedstawiono podstawowe kroki tworzenia listy.

  • Zacznij od sporządzenia listy problemów z jakością danych, które wystąpiły w ciągu ostatniego roku.
  • Poświęć tydzień lub dwa na obserwację przepływu danych i ustal, co wygląda wątpliwie i dlaczego.
  • Podziel się swoimi spostrzeżeniami z innymi menedżerami i pracownikami, uzyskaj informację zwrotną i dostosuj wyniki, korzystając z informacji zwrotnej.
  • Przejrzyj listę problemów z jakością danych i określ, które z nich mają najwyższy priorytet na podstawie ich wpływu na przychody.
  • Przepisz listę tak, aby priorytety znajdowały się na pierwszym miejscu. (Lista ta może zostać udostępniona zarządowi i wykonawcy oceny jakości danych po ustaleniu zakresu.)
  • Ustal zakres – jakie dane będą sprawdzane podczas oceny?
  • Ustal, kto korzysta z danych, i sprawdź jego zachowanie przed oceną i po niej, aby ustalić, czy konieczne jest wprowadzenie zmian.

Platformy oceny jakości danych

Ręczne wykonanie oceny jakości danych wymaga tak dużego wysiłku, że większość menedżerów nigdy by tego nie zatwierdziła. Na szczęście dostępne są platformy i rozwiązania dotyczące jakości danych. Niektórzy przyjmują podejście całościowe, podczas gdy inni skupiają się na określonych platformach lub narzędziach. Platformy oceny jakości danych mogą pomóc organizacjom w radzeniu sobie z rosnącymi wyzwaniami związanymi z danymi, przed którymi stoją. 

W miarę rozszerzania się wykorzystania usług przetwarzania w chmurze i przetwarzania brzegowego organizacje mogą korzystać z platform oceny jakości danych do analizowania, zarządzania i czyszczenia danych pobranych z różnych źródeł, takich jak poczta elektroniczna, media społecznościowe i Internet rzeczy. Niektóre platformy oceny (w tym pulpity nawigacyjne) omówiono poniżej.

TPlatforma Erwin Data Intelligence Platform wykorzystuje narzędzia do wykrywania oparte na sztucznej inteligencji i uczeniu maszynowym do wykrywania wzorców danych i tworzy reguły biznesowe na potrzeby oceny jakości danych. Platforma analizy danych Erwin automatyzuje ocenę jakości danych, zapewnia ciągłą obserwację danych i zawiera szczegółowe dashboardy.

Platforma Enterprise Data Observability Platform firmy Acceldata dobrze integruje się z różnorodnymi technologiami i dobrze współpracuje ze środowiskami publicznymi, hybrydowymi i wielochmurowymi. Zapewnia bardzo efektywny panel jakości danych i wykorzystuje algorytmy automatyzacji uczenia maszynowego, aby zmaksymalizować wydajność danych. Platforma Acceldata wykryje i naprawi problemy na początku potoku danych, izolując je, zanim wpłyną one na dalsze analizy.

Platforma IBM Infosphere Information Server for Data Quality Platform udostępnia szeroką gamę narzędzi do sprawdzania jakości danych, które pomagają w ciągłym analizowaniu i monitorowaniu jakości danych. Platforma IBM oczyści i ujednolici dane podczas analizy i monitorowania jakości danych, aby zredukować nieprawidłowe lub niespójne dane.

DataMatch Enterprise firmy Data Ladder ma elastyczną architekturę, która zapewnia różnorodne narzędzia umożliwiające czyszczenie i standaryzację danych. Można go zintegrować z większością systemów i jest łatwy w użyciu. Przedsiębiorstwo DataMatch to samoobsługowe narzędzie do kontroli jakości danych, które potrafi zidentyfikować podstawowe anomalie. Mierzy dokładność, kompletność, aktualność itp. Wykonuje również szczegółowe czyszczenie, dopasowywanie i łączenie danych.

Intellectyx działa jako wykonawca różnych usług związanych z danymi, w tym dostarczając oceny i rozwiązania dotyczące jakości danych. Ich proces obejmuje:

  • Identyfikacja potrzeb biznesowych
  • Definiowanie wskaźników jakości danych
  • Ocena bieżącej jakości danych
  • Opracowanie planu ulepszeń

OpenRefine nie jest platformą do oceny jakości danych, ale jest bezpłatnym, wydajnym narzędziem typu open source zaprojektowanym do pracy z nieuporządkowanymi danymi. Narzędzie oczyści dane, przekształcając je do odpowiedniego formatu. Dane są czyszczone w systemie komputerowym, a nie w chmurze służącej do prania danych. 

Raport z oceny

Raporty z oceny jakości danych mają zwykle na celu opisanie wyników oceny, a także obserwacji i zaleceń. Raport zawiera wszelkie anomalie, które miały krytyczny wpływ na organizację, a także rozwiązania umożliwiające identyfikację i eliminację tych anomalii. 

Raport powinien zawierać:

  • Streszczenie: Wprowadzenie połączone z krótkim opisem raportu
  • Kluczowe wnioski: Problemy z przepływem danych i ich wpływ na biznes
  • Zastosowany proces: Opisz oprogramowanie i proces. (Jeżeli skorzystano z usług wykonawcy, za sporządzenie raportu odpowiada on)
  • Wyniki i oceny ogólne (na numer)
  • Zalecenia (na numer)
  • Otwarte problemy: Wszelkie nierozwiązane problemy
  • Wniosek: oczekiwane rezultaty biznesowe po wprowadzeniu zmian oraz uwagi lub porady dotyczące nierozwiązanych kwestii

Obraz używany na licencji Shutterstock.com

Znak czasu:

Więcej z WSZECHSTRONNOŚĆ DANYCH