Obserwowalność danych: co to jest i dlaczego ma znaczenie — DATAVERSITY

Obserwowalność danych: co to jest i dlaczego ma znaczenie – DATAVERSITY

Węzeł źródłowy: 2691645
obserwowalność danychobserwowalność danych

Obserwowalność danych jako proces jest wykorzystywana przez firmy pracujące z ogromnymi ilościami danych. Wiele dużych, nowoczesnych organizacji próbuje monitorować swoje dane za pomocą różnych aplikacji i narzędzi. Niestety, niewiele firm zapewnia przejrzystość niezbędną do uzyskania realistycznego przeglądu. 

Obserwowalność danych zapewnia ten przegląd, aby jak najszybciej wyeliminować problemy z przepływem danych.

Proces obserwowalności obejmuje różnorodne metody i technologie, które pomagają identyfikować i rozwiązywać problemy z danymi w czasie rzeczywistym. Ten proces tworzy wielowymiarową mapę całego przepływu danych w firmie, oferując głębszy wgląd w wydajność systemu i jakość danych. 

Zapytany o obserwowalność danych, Ryan Yackel, dyrektor ds. marketingu Databand, firmy IBM, skomentował:

„Ponieważ ilość, szybkość i złożoność potoków big data stale rosną, firmy polegają na zespołach inżynierii danych i platform, które stanowią podstawę ich działalności opartej na danych. Problem polega na tym, że większość z tych zespołów ma już za sobą pracę. Walczą z danymi za pomocą incydentów związanych z niezawodnością i jakością, co utrudnia skupienie się na strategicznych inicjatywach obejmujących AL/ML, analitykę i produkty związane z danymi. Rozwiązaniem jest możliwość obserwowania danych”.

Początkowo obserwowalność danych może wydawać się formą rodowód danych, ale te dwa procesy służą różnym celom. 

Obserwowalność danych koncentruje się na szybkim i skutecznym rozwiązywaniu problemów z danymi za pomocą systemu pomiarowego. Pochodzenie danych jest jednak wykorzystywane przede wszystkim do gromadzenia i przechowywania danych wysokiej jakości – danych, którym można zaufać.

Ponadto pochodzenie danych może być wykorzystane jako element wspierający program obserwowalności. (Niektóre artykuły promują obserwowalność danych jako służącą temu samemu celowi, co pochodzenie danych, i jest w tym trochę prawdy. Pochodzenie danych jest elementem obserwowalności danych). 

Termin „obserwowalność” był pierwotnie koncepcją filozoficzną rozwiniętą przez Heraklita około 510 roku p.n.e. Ustalił, że obserwowalność wymaga różnic porównawczych – zimno można zaobserwować w porównaniu z ciepłem. W 1871 roku fizyk James C. Maxwell doszedł do wniosku, że niemożliwe jest poznanie położenia wszystkich cząstek w eksperymencie termodynamicznym, ale obserwując „pewne kluczowe wyniki” zmian porównawczych, można dokonać dokładnych przewidywań. 

Opracowany przez Maxwella opis obserwowalności z wykorzystaniem kluczowych danych wyjściowych został dostosowany i zastosowany w szeregu zautomatyzowanych aplikacji, począwszy od urządzeń fabrycznych po czujniki lotnicze. Koncepcja została następnie przyjęta przez DevOps do debugowania i radzenia sobie z „incydentami produkcyjnymi” około 2016 r. W 2019 r. Barr Moses – dyrektor generalny i współzałożyciel Monte Carlo – opracował proces obserwowalności mający na celu zapewnienie przeglądu przepływu danych w organizacji . 

Mojżesz napisał

„Obserwowalność danych to zdolność organizacji do pełnego zrozumienia stanu danych w jej systemach. Obserwowalność danych eliminuje przestoje danych dzięki stosowaniu sprawdzonych praktyk DevOps do obserwowalność potoku danych".

Pięć filarów obserwowalności danych

Obserwowalność danych ma na celu rozwiązywanie problemów z danymi i informacjami poprzez dostarczanie dokładnej mapy danych w czasie rzeczywistym. Zapewnia widoczność działań organizacji związanych z danymi. Wiele firm przechowuje dane w silosach, co uniemożliwia ich obserwację. Silosy danych muszą zostać wyeliminowane, aby wspierać program obserwowalności danych. 

Gdy działania takie jak śledzenie, monitorowanie, ostrzeganie, analiza, rejestrowanie i „porównania” są wykonywane bez pulpitu obserwacyjnego, może mieć miejsce pewien rodzaj partycjonowania organizacyjnego. Ludzie w jednym dziale nie zdają sobie sprawy, że ich wysiłki mają niezamierzone konsekwencje w innym dziale – takie jak brakujące/wyizolowane informacje sprzyjające podejmowaniu złych decyzji lub część systemu nie działa i nikt nie zdaje sobie z tego sprawy. 

Pamiętaj, że obserwowalność polega na dokonywaniu pomiarów pewnych kluczowych wyników. Pięć filarów (lub kluczowych wyników) opracowanych przez Barra Mosesa do celów pomiarowych to: 

  • Jakość: Dane wysokiej jakości są uważane za dokładne, podczas gdy dane niskiej jakości nie. Pomiary jakości danych dają wgląd w to, czy Twoim danym można ufać. Istnieje wiele sposobów zmierzyć Jakość danych.
  • Schemat: Wiąże się to ze zmianami w sposobie organizacji danych, a pomiary schematu mogą pokazać przerwy w przepływie danych. Określenie, kiedy, jak i kto dokonał zmian, może być przydatne w ramach konserwacji zapobiegawczej. 
  • Tom: Duże ilości danych są przydatne do celów badawczych i marketingowych. Może to zapewnić organizacjom zintegrowany widok ich klientów i rynku. Im więcej aktualnych i historycznych danych wykorzystanych podczas badań, tym więcej spostrzeżeń.
  • Pochodzenie danych: Dobry program do tworzenia linii danych rejestruje zmiany w danych i ich lokalizacjach i jest zwykle używany do poprawy jakości danych. Jednak może być również używany jako część programu do obserwacji danych. W tym charakterze jest używany do rozwiązywania problemów z przerwami, które mogą wystąpić, i wymieniania tego, co zostało zrobione przed uszkodzeniem. 
  • Świeżość: Zasadniczo chodzi o to, aby nie wykorzystywać starych informacji lub, jak określa to Barr Moses, nieaktualnych danych. Świeżość kładzie nacisk na aktualne dane, co jest ważne przy podejmowaniu decyzji opartych na danych. Sygnatury czasowe są powszechnie używane do określania, czy dane są stare. 

Połączone pomiary tych komponentów lub filarów mogą dostarczyć cennych informacji na temat pojawiających się – lub po prostu pojawiających się – problemów i promować zdolność do jak najszybszego dokonywania napraw.

Wyzwania związane z obserwowalnością danych

Właściwa platforma umożliwiająca obserwację danych może zmienić sposób, w jaki firmy utrzymują swoje dane i zarządzają nimi. Niestety wdrożenie platformy może wiązać się z pewnymi wyzwaniami. Problemy ze zgodnością pojawią się, gdy platforma będzie źle dopasowana. 

Platformy i narzędzia umożliwiające obserwowalność mogą podlegać ograniczeniom, jeśli potok danych, oprogramowanie, serwery i bazy danych nie są w pełni kompatybilne. Platformy te nie działają w próżni, dlatego ważne jest ich wyeliminowanie silosy danych z systemu i zapewnić integrację wszystkich systemów danych w organizacji. 

Ważne jest, aby przetestować platformę obserwowalności danych przed podpisaniem umowy.

Niestety, nawet jeśli wszystkie wewnętrzne i zewnętrzne źródła danych firmy są poprawnie zintegrowane z platformą, jest inaczej modele danych może powodować problemy. Wiele firm obsługuje 400 lub więcej źródeł danych, a każde źródło zewnętrzne może stanowić problem, jeśli nie korzysta z tych samych standardów i formatów.

Z wyjątkiem narzędzi typu open source, platformy obserwowalności są oparte na chmurze i mogą oferować pewną elastyczność, która wspiera precyzyjne dostrajanie. 

Najlepsze platformy obserwowalności koncentrują się na znormalizowanym procesie pomiarowym i wytycznych dotyczących rejestrowania. Sprzyja to efektywnej korelacji informacji, ale zewnętrzne źródła danych i dostosowane potoki danych mogą powodować problemy i wymagać dodatkowych ręcznych działań w celu wykonania zadań, które powinny być zautomatyzowane.

Ponadto niektóre narzędzia mogą wiązać się z nietypowymi kosztami przechowywania, które ograniczają skalowalność.

Platformy Obserwacji Danych

Platformy obserwowalności danych zazwyczaj zawierają wiele przydatnych narzędzi. Często obejmują one zautomatyzowaną obsługę zautomatyzowanego pochodzenia danych, analizę przyczyn źródłowych, jakość danych i monitorowanie w celu identyfikowania, rozwiązywania i zapobiegania anomaliom w przepływie danych. 

Platformy promują zwiększoną produktywność, zdrowsze rurociągi i szczęśliwszych klientów. Niektóre popularne platformy obserwowalności danych to:

  • Pasmo danych zapewnia wysoce funkcjonalną platformę umożliwiającą obserwację, która może bardzo szybko wykrywać i rozwiązywać problemy z danymi, korzystając z procesu ciągłej obserwacji, który identyfikuje problemy z danymi, zanim wpłyną one na Twoją działalność. 
  • Monte Carlo oferuje platformę obserwowalności, którą można opisać jako zapewniającą obserwowalność „od rurociągu do business intelligence”. Wnosi niezawodność danych do orkiestracji różnych usług danych i narzędzi. 
  • Metaplan zapewnia pełną obserwowalność.
  • Istnieje różnorodność open-source dostępnych narzędzi umożliwiających obserwację, które warto byłoby zbadać.

Znaczenie obserwowalności danych

W przypadku organizacji zajmujących się dużymi przepływami danych obserwowalność może być wykorzystana do monitorowania systemu danych jako całości i wysyłania sygnałów ostrzegawczych, gdy pojawi się problem. 

Ponieważ firmy zbierają ogromne ilości danych z różnych źródeł, opracowują systemy do ich obsługi, warstwa po warstwie. Systemy te obejmują przechowywanie danych, potoki danych i szereg narzędzi. Każda dodatkowa warstwa złożoności zwiększa szanse na przestój danych z powodu problemów, takich jak niezgodności lub stare i brakujące dane.

Według Yackela: „Ciągłe wykorzystywanie obserwowalności danych do monitorowania potoków danych, zestawów danych i tabel danych ostrzega zespoły danych o wystąpieniu incydentu z danymi i pokazuje, jak naprawić pierwotną przyczynę, zanim wpłynie to na ich działalność. Dzięki obserwowalności danych inżynierowie mogą skupić się na tworzeniu doskonałych produktów opartych na danych, zamiast na utrzymywaniu niedziałających procesów”. 

Obserwowalność danych pomoże firmom proaktywnie identyfikować źródła problemów z potokami, błędów danych i niespójności w przepływie danych w celu wzmocnienia relacji z klientami i poprawy jakości danych.

Obraz używany na licencji Shutterstock.com

Znak czasu:

Więcej z WSZECHSTRONNOŚĆ DANYCH