Datenbeobachtbarkeit: Was es ist und warum es wichtig ist – DATAVERSITY

Datenbeobachtbarkeit: Was es ist und warum es wichtig ist – DATAVERSITY

Quellknoten: 2691645
DatenbeobachtbarkeitDatenbeobachtbarkeit

Als Prozess wird die Datenbeobachtbarkeit von Unternehmen genutzt, die mit riesigen Datenmengen arbeiten. Viele große, moderne Unternehmen versuchen, ihre Daten mithilfe verschiedener Anwendungen und Tools zu überwachen. Leider entwickeln nur wenige Unternehmen die nötige Sichtbarkeit für einen realistischen Überblick. 

Die Datenbeobachtbarkeit sorgt für den Überblick, um Datenflussprobleme schnellstmöglich zu beseitigen.

Der Observability-Prozess umfasst eine Vielzahl von Methoden und Technologien, die dabei helfen, Datenprobleme in Echtzeit zu identifizieren und zu lösen. Dieser Prozess erstellt eine mehrdimensionale Karte des gesamten Datenflusses eines Unternehmens und bietet tiefere Einblicke in die Leistung und Datenqualität des Systems. 

Auf die Frage nach der Beobachtbarkeit von Daten antwortete Ryan Yackel, CMO von Databand, einem IBM-Unternehmen:

„Da Volumen, Geschwindigkeit und Komplexität von Big-Data-Pipelines weiter zunehmen, verlassen sich Unternehmen auf Data-Engineering- und Plattformteams als Rückgrat ihrer datengesteuerten Geschäfte. Das Problem ist, dass die meisten dieser Teams noch viel Arbeit vor sich haben. Sie bekämpfen Daten mit Zuverlässigkeit und Qualitätsvorfällen, was es schwierig macht, sich auf strategische Initiativen zu konzentrieren, die AL/ML, Analysen und Datenprodukte umfassen. Datenbeobachtbarkeit bietet eine Lösung.“

Auf den ersten Blick scheint die Beobachtbarkeit von Daten eine Form von zu sein Datenherkunft, aber die beiden Prozesse dienen unterschiedlichen Zwecken. 

Der Schwerpunkt der Datenbeobachtbarkeit liegt auf der schnellen und effizienten Lösung von Datenproblemen durch den Einsatz eines Messsystems. Die Datenherkunft wird jedoch hauptsächlich zum Sammeln und Speichern hochwertiger Daten verwendet – Daten, denen man vertrauen kann.

Darüber hinaus kann die Datenherkunft als Komponente zur Unterstützung eines Observability-Programms verwendet werden. (Einige Artikel propagieren, dass die Datenbeobachtbarkeit denselben Zweck erfüllt wie die Datenherkunft, und an dieser Behauptung ist etwas Wahres dran. Die Datenherkunft ist ein Bestandteil der Datenbeobachtbarkeit.) 

Der Begriff „Beobachtbarkeit“ war ursprünglich ein philosophisches Konzept, das Heraklit um 510 v. Chr. entwickelte. Er stellte fest, dass für die Beobachtbarkeit vergleichende Unterschiede erforderlich sind – Kälte kann im Vergleich zu Wärme beobachtet werden. Im Jahr 1871 entwickelte der Physiker James C. Maxwell die Idee, dass es unmöglich sei, die Position aller Teilchen in einem thermodynamischen Experiment zu kennen, aber durch die Beobachtung „bestimmter Schlüsselergebnisse“ für vergleichende Änderungen könnten genaue Vorhersagen getroffen werden. 

Maxwells Beschreibung der Beobachtbarkeit mithilfe von Schlüsselausgaben wurde angepasst und auf eine Vielzahl automatisierter Anwendungen angewendet, die von Fabrikanlagen bis hin zu Flugzeugsensoren reichen. Etwa im Jahr 2016 wurde das Konzept dann von DevOps zum Debuggen und Behandeln von „Produktionsvorfällen“ übernommen. Im Jahr 2019 entwickelte Barr Moses – CEO und Mitbegründer von Monte Carlo – einen Observability-Prozess, der einen Überblick über den Datenfluss eines Unternehmens bieten soll . 

Mose schrieb

„Datenbeobachtbarkeit ist die Fähigkeit einer Organisation, den Zustand der Daten in ihren Systemen vollständig zu verstehen. Die Datenbeobachtbarkeit eliminiert Datenausfallzeiten durch die Anwendung der daraus erlernten Best Practices DevOps zu Beobachtbarkeit der Datenpipeline"

Fünf Säulen der Datenbeobachtbarkeit

Datenbeobachtbarkeit dient der Lösung von Daten- und Informationsproblemen, indem eine umfassende Karte der Daten in Echtzeit bereitgestellt wird. Es bietet Transparenz für die Datenaktivitäten einer Organisation. Viele Unternehmen verfügen über isolierte Daten, die die Sichtbarkeit verhindern. Datensilos müssen beseitigt werden, um ein Datenobservability-Programm zu unterstützen. 

Wenn Aktivitäten wie Nachverfolgung, Überwachung, Alarmierung, Analyse, Protokollierung und „Vergleiche“ ohne ein Observability-Dashboard durchgeführt werden, kann eine Form der organisatorischen Aufteilung stattfinden. Die Mitarbeiter einer Abteilung sind sich nicht bewusst, dass ihre Bemühungen unbeabsichtigte Konsequenzen in einer anderen Abteilung haben – beispielsweise fehlende/isolierte Informationen, die zu Fehlentscheidungen führen, oder ein Teil des Systems ist ausgefallen, ohne dass es jemandem bewusst ist. 

Denken Sie daran, dass es bei der Beobachtbarkeit darum geht, bestimmte wichtige Ergebnisse zu messen. Die fünf Säulen (oder Schlüsselergebnisse), die Barr Moses für Messzwecke entwickelt hat, sind: 

  • Qualität: Daten hoher Qualität gelten als genau, Daten niedriger Qualität hingegen nicht. Messungen der Datenqualität geben Aufschluss darüber, ob Ihre Daten vertrauenswürdig sind. Es gibt verschiedene Möglichkeiten Messen Datumsqualität.
  • Schema: Dies bringt Änderungen in der Organisation der Daten mit sich und Schemamessungen können Unterbrechungen im Datenfluss aufzeigen. Die Feststellung, wann, wie und wer die Änderungen vorgenommen hat, kann im Hinblick auf die vorbeugende Wartung hilfreich sein. 
  • Volumen: Große Datenmengen sind für Forschungs- und Marketingzwecke nützlich. Dadurch können Unternehmen eine integrierte Sicht auf ihre Kunden und ihren Markt erhalten. Je mehr aktuelle und historische Daten bei der Recherche verwendet werden, desto mehr Erkenntnisse ergeben sich.
  • Datenherkunft: Ein gutes Data-Lineage-Programm zeichnet Änderungen an den Daten und ihren Speicherorten auf und wird normalerweise zur Verbesserung der Datenqualität eingesetzt. Es kann jedoch auch als Teil eines Datenbeobachtungsprogramms verwendet werden. In dieser Funktion dient es der Fehlerbehebung bei eventuell auftretenden Unterbrechungen und der Auflistung der Maßnahmen, die vor dem Schaden durchgeführt wurden. 
  • Frische: Dabei geht es im Wesentlichen darum, keine alten Informationen oder, wie Barr Moses es nennt, veraltete Daten zu verwenden. Frische legt Wert auf aktuelle Daten, die für datengesteuerte Entscheidungen wichtig sind. Zeitstempel werden üblicherweise verwendet, um festzustellen, ob die Daten alt sind. 

In Kombination können die Messungen dieser Komponenten oder Säulen wertvolle Erkenntnisse über Probleme liefern, die sich entwickeln – oder einfach auftreten – und die Fähigkeit fördern, Reparaturen so schnell wie möglich durchzuführen.

Herausforderungen bei der Datenbeobachtbarkeit

Die richtige Datenobservability-Plattform kann die Art und Weise verändern, wie Unternehmen ihre Daten pflegen und verwalten. Leider kann die Implementierung der Plattform einige Herausforderungen mit sich bringen. Kompatibilitätsprobleme treten auf, wenn die Plattform nicht passt. 

Observability-Plattformen und -Tools können eingeschränkt sein, wenn die Datenpipeline, die Software, die Server und die Datenbanken nicht vollständig kompatibel sind. Diese Plattformen funktionieren nicht im luftleeren Raum, daher ist es wichtig, sie zu beseitigen Datensilos aus dem System und stellen Sie sicher, dass alle Datensysteme innerhalb der Organisation integriert sind. 

Es ist wichtig, eine Datenobservability-Plattform zu testen, bevor Sie einen Vertrag unterzeichnen.

Leider ist es anders, selbst wenn alle internen und externen Datenquellen des Unternehmens korrekt in die Plattform integriert sind Datenmodelle kann Probleme verursachen. Viele Unternehmen unterstützen 400 oder mehr Datenquellen, und jede externe Quelle kann ein Problem darstellen, wenn sie nicht dieselben Standards und Formate verwendet.

Mit Ausnahme von Open-Source-Tools sind Observability-Plattformen cloudbasiert und bieten möglicherweise eine gewisse Flexibilität, die die Feinabstimmung unterstützt. 

Die besten Observability-Plattformen konzentrieren sich auf einen standardisierten Messprozess und Protokollierungsrichtlinien. Dies fördert die effektive Korrelation von Informationen, externe Datenquellen und angepasste Datenpipelines können jedoch Probleme verursachen und zusätzlichen manuellen Aufwand erfordern, um Aufgaben zu erledigen, die hätten automatisiert werden sollen.

Darüber hinaus können bei einigen Tools ungewöhnliche Speicherkosten anfallen, die die Skalierbarkeit einschränken.

Datenbeobachtungsplattformen

Datenobservability-Plattformen enthalten in der Regel eine Vielzahl nützlicher Tools. Dazu gehören häufig automatisierte Unterstützung für automatisierte Datenherkunft, Ursachenanalyse, Datenqualität und Überwachung, um Anomalien im Datenfluss zu identifizieren, zu beheben und zu verhindern. 

Die Plattformen fördern eine höhere Produktivität, gesündere Pipelines und zufriedenere Kunden. Einige beliebte Datenobservability-Plattformen sind:

  • Datenband bietet eine hochfunktionale Observability-Plattform, die Datenprobleme sehr schnell erkennen und beheben kann. Dabei kommt ein kontinuierlicher Observability-Prozess zum Einsatz, der Datenprobleme identifiziert, bevor sie sich auf Ihr Unternehmen auswirken. 
  • Monte Carlo bietet eine Observability-Plattform, die so beschrieben werden kann, dass sie Observability „von der Pipeline bis zur Pipeline“ bietet Business Intelligence.“ Es bringt Datenzuverlässigkeit in die Orchestrierung verschiedener Datendienste und -tools. 
  • Metaebene bietet eine durchgängige Beobachtbarkeit.
  • Es gibt eine Vielzahl von Open-Source Es stehen Observability-Tools zur Verfügung, die es wert wären, untersucht zu werden.

Die Bedeutung der Datenbeobachtbarkeit

Für Organisationen, die mit großen Datenflüssen zu tun haben, kann Observability genutzt werden, um das Datensystem als Ganzes zu überwachen und Warnsignale auszusenden, wenn ein Problem auftritt. 

Da Unternehmen riesige Datenmengen aus unterschiedlichen Quellen sammeln, entwickeln sie Systeme, um diese Schicht für Schicht zu verarbeiten. Zu diesen Systemen gehören Datenspeicher, Datenpipelines und eine Reihe von Tools. Jede zusätzliche Komplexitätsebene erhöht die Wahrscheinlichkeit von Datenausfällen aufgrund von Problemen wie Inkompatibilitäten oder alten und fehlenden Daten.

Laut Yackel „warnt die kontinuierliche Nutzung der Datenbeobachtbarkeit zur Überwachung von Datenpipelines, Datensätzen und Datentabellen Datenteams, wenn ein Datenvorfall auftritt, und zeigt, wie die Grundursache behoben werden kann, bevor sie sich auf ihr Unternehmen auswirkt.“ Mit der Datenbeobachtbarkeit kann sich die Technik auf die Entwicklung großartiger Datenprodukte konzentrieren, anstatt unterbrochene Prozesse aufrechtzuerhalten.“ 

Die Datenbeobachtbarkeit wird Unternehmen dabei helfen, proaktiv die Ursache von Pipeline-Problemen, Datenfehlern und Datenflussinkonsistenzen zu identifizieren, um die Kundenbeziehungen zu stärken und die Datenqualität zu verbessern.

Bild verwendet unter Lizenz von Shutterstock.com

Zeitstempel:

Mehr von DATENVERSITÄT