Überwindung einer Welt voller schmutziger Daten

Überwindung einer Welt voller schmutziger Daten

Quellknoten: 2574986

Wie ein unsichtbarer Virus plagen „schmutzige Daten“ die heutige Geschäftswelt. Das heißt, in der heutigen, auf „Big Data“ ausgerichteten Welt nehmen ungenaue, unvollständige und inkonsistente Daten zu.

Die Arbeit mit schmutzigen Daten kostet Unternehmen jährlich Millionen von Dollar. Es verringert die Effizienz und Effektivität der Abteilungen im gesamten Unternehmen und schränkt die Wachstums- und Skalierungsbemühungen ein. Dies beeinträchtigt die Wettbewerbsfähigkeit, erhöht die Sicherheitsrisiken und führt zu Compliance-Problemen.

Die Verantwortlichen Datenmanagement kämpfen seit Jahren mit dieser Herausforderung. Viele der derzeit verfügbaren Tools können Datenmanagementprobleme für isolierte Teams innerhalb von Abteilungen lösen, nicht jedoch für das Unternehmen als Ganzes oder für breitere Datenökosysteme. Schlimmer noch: Diese Tools erzeugen am Ende häufig noch mehr Daten, die verwaltet werden müssen – und auch diese Daten können verschmutzt werden, was zu noch mehr Kopfschmerzen und Umsatzeinbußen führt.

Schmutzige Daten verstehen

Schmutzige Daten bezieht sich auf beliebige Daten die irreführend, doppelt, falsch oder ungenau, noch nicht integriert, gegen Geschäftsregeln verstoßend sind, keine einheitliche Formatierung aufweisen oder Fehler in der Zeichensetzung oder Rechtschreibung enthalten.

Um zu verstehen, wie schmutzige Daten in den letzten Jahrzehnten allgegenwärtig geworden sind, stellen Sie sich das folgende Szenario vor: 

Kreditgeber einer Großbank sind ratlos, als sie feststellen, dass fast alle Kunden der Bank Astronauten sind. Wenn man bedenkt, dass die NASA nur eine hat ein paar Dutzend Astronauten, das macht keinen Sinn. 

Bei weiteren Untersuchungen stellt die Kreditabteilung fest, dass Bankmitarbeiter bei der Eröffnung neuer Konten den Begriff „Astronaut“ in das Berufsfeld „Kunden“ eingefügt hatten. Die Kreditgeber erfahren, dass die Stellenbeschreibung für ihre Kollegen, die für neue Konten verantwortlich sind, irrelevant ist. Die Bankangestellten hatten „Astronaut“ als erste verfügbare Option ausgewählt, einfach um die Einrichtung neuer Konten zu beschleunigen.

Allerdings müssen die Kreditgeber die korrekten Berufe ihrer Kunden aktenkundig machen, um ihre Jahresboni zu erhalten. Um Abhilfe zu schaffen, entwickelt die Kreditabteilung eine eigene, separate Datenbank. Sie kontaktieren jeden Kunden, erfahren den richtigen Beruf und tragen ihn in ihre Datenbank ein.

Jetzt verfügt die Bank über zwei Datenbanken mit im Wesentlichen denselben Informationen, abgesehen von einem Feld. Wenn eine dritte Abteilung auf die Informationen in diesen Datenbanken zugreifen möchte, gibt es kein System, um festzustellen, welche Datenbank korrekt ist. Diese dritte Abteilung könnte also auch eine eigene Datenbank erstellen.

Ähnliche Szenarien spielen sich seit Jahrzehnten in Organisationen im ganzen Land ab.

Aufkeimende Mülldeponien für digitale Daten

Der Ärger begann in den 1990er Jahren mit dem Digital-Transformation Boom. Unternehmen setzten Unternehmenssoftware ein, um ihre Geschäftsprozesse zu verbessern. Software-as-a-Service-Produkte von Salesforce ermöglichten beispielsweise bessere Möglichkeiten zur Verwaltung von Vertriebs- und Marketingsystemen.

Aber 30 Jahre später hat diese veraltete Infrastruktur zu einem Datenmanagement-Albtraum geführt. Unterschiedliche Datensilos mit Unmengen doppelter, unvollständiger und falscher Informationen prägen die Unternehmenslandschaft und den öffentlichen Sektor. Diese Silos umfassen Geschäftsbereiche, Regionen und Funktionen, die jeweils Eigentümer ihrer Datenquellen sind und diese überwachen.

Darüber hinaus hat die Datengenerierung im Laufe der Jahrzehnte exponentiell zugenommen. Jeder Geschäftsprozess erfordert mittlerweile eine eigene Software und produziert immer mehr Daten. Anwendungen protokollieren jede Aktion in ihren nativen Datenbanken, und es sind Hindernisse beim Mining der neu erstellten Datenbestände aufgetaucht.

In früheren Jahrzehnten war das Vokabular zur Definition von Daten spezifisch für den Geschäftsprozess, der sie erstellte. Ingenieure mussten diese Lexika in diskrete Wörterbücher für die Systeme übersetzen, die die Daten nutzen. Qualitätsgarantien gab es in der Regel nicht. Wie im obigen Astronautenbeispiel waren Daten, die von einer Geschäftsfunktion genutzt werden konnten, für andere unbrauchbar. Und der Zugriff auf Daten aus ursprünglichen Geschäftsprozessen war bestenfalls für Funktionen eingeschränkt, die andernfalls möglicherweise optimiert worden wären.

Das Kopierrätsel

Um dieses Problem zu lösen, begannen Ingenieure damit, Kopien der Originaldatenbanken anzufertigen, da dies bis vor Kurzem die beste verfügbare Option war. Anschließend transformierten sie diese Kopien, um die Anforderungen der konsumierenden Funktion zu erfüllen, indem sie Datenqualitätsregeln und Korrekturlogik anwandten, die ausschließlich für die konsumierende Funktion galten. Sie erstellten viele Kopien und luden sie in mehrere Data Warehouses und Analysesysteme.

Das Ergebnis? Ein Überfluss an Datensatzkopien, die für einige Teile der Organisation als „schmutzig“ wahrgenommen werden, was zu Verwirrung darüber führt, welche Kopie die richtige ist. Unternehmen verfügen heute über Hunderte Kopien von Quelldaten in Betriebsdatenspeichern, Datenbanken, Data Warehouses, Data Lakes, Analyse-Sandboxen und Tabellenkalkulationen in Rechenzentren und mehreren Clouds. Dennoch haben Chief Information Officers und Chief Data Officers weder Kontrolle über die Anzahl der erstellten Kopien noch wissen sie, welche Version eine echte Quelle der Wahrheit darstellt.

Um Ordnung in dieses Chaos zu bringen, stehen zahlreiche Data-Governance-Softwareprodukte zur Verfügung. Dazu gehören Datenkataloge, Datenqualitätsmess- und Problemlösungssysteme, Referenzdatenverwaltungssysteme, Stammdatenverwaltungssysteme, Datenherkunftserkennung und Verwaltungssysteme.

Aber diese Abhilfemaßnahmen sind teuer und zeitintensiv. Ein typisches Stammdatenmanagementprojekt zur Integration von Kundendaten aus mehreren Datenquellen verschiedener Produktlinien kann Jahre dauern und Millionen von Dollar kosten. Gleichzeitig nimmt die Menge schmutziger Daten mit einer Geschwindigkeit zu, die die organisatorischen Bemühungen zur Einführung von Kontrollen und Governance übersteigt.

Diese Ansätze sind voller Mängel. Sie verlassen sich auf manuelle Prozesse, Entwicklungslogik oder Geschäftsregeln, um die Aufgaben der Bestandsaufnahme, Messung und Korrektur der Daten auszuführen. 

Die Kontrolle zurückgewinnen

Drei neue Technologien eignen sich am besten, um das aktuelle Dilemma zu bewältigen: KI- und maschinelles Lernen gestützte Datenverwaltung, semantische Interoperabilitätsplattformen wie Wissensgraphen und Datenverteilungssysteme wie verteilte Ledger: 

1. KI- und maschinell lernende Data-Governance-Lösungen Reduzieren Sie die Abhängigkeit von Menschen und Code. KI und maschinelles Lernen ersetzen manuelle Arbeit durch Aktionen, die das automatische Tagging, Organisieren und Überwachen riesiger Datenmengen umfassen. Die Transformation und Migration des Datenmanagements senkt die IT-Kosten. Unternehmen können auch robustere und nachhaltigere Architekturen aufbauen, die die Datenqualität im großen Maßstab fördern.

2. Wissensgraphen Ermöglichen Sie die native Interoperabilität unterschiedlicher Datenbestände, sodass Informationen in einem gemeinsamen Format kombiniert und verstanden werden können. Durch die Nutzung semantischer Ontologien können Unternehmen Daten mit Kontext und einem gemeinsamen Format für die Wiederverwendung durch mehrere Stakeholder zukunftssicher machen.

3. Verteilte Hauptbücher, Differenzielle Privatsphäre und Virtualisierung Eliminieren Sie die Notwendigkeit, Daten physisch zu kopieren. Verteilte Hauptbücher umfassen föderierte und verwaltete Datenbanken, die über Geschäftsbereiche und Organisationen hinweg genutzt werden können. Differential Privacy ermöglicht es, Daten zu maskieren, um Compliance-Anforderungen einzuhalten, und sie gleichzeitig mit Stakeholdern zu teilen. Virtualisierung ermöglicht die Bereitstellung von Daten in einer virtuellen statt einer physischen Umgebung.

Sobald CIOs und CDOs verstehen, dass die Ursache des Problems in der veralteten Infrastruktur liegt, die Datensilos schafft, können sie die zugrunde liegenden Architekturen und Dateninfrastrukturstrategien verbessern.

Schmutzige Daten schränken die Fähigkeit eines Unternehmens ein, fundierte Entscheidungen zu treffen und präzise und flexibel zu agieren. Organisationen müssen die Kontrolle über ihre Daten übernehmen und die Interoperabilität, Qualität und Zugänglichkeit der Daten fördern. Dadurch werden Wettbewerbsvorteile erzielt und Sicherheits- und Compliance-Schwachstellen beseitigt.

Zeitstempel:

Mehr von DATENVERSITÄT