Kann Data Governance der KI-Müdigkeit entgegenwirken? - KDnuggets

Kann Data Governance der KI-Müdigkeit entgegenwirken? – KDnuggets

Quellknoten: 3052543

Kann Data Governance der KI-Müdigkeit entgegenwirken?
Bild vom Autor
 

Data Governance und KI-Müdigkeit klingen wie zwei unterschiedliche Konzepte, es besteht jedoch ein innerer Zusammenhang zwischen beiden. Um es besser zu verstehen, beginnen wir mit ihrer Definition. 

Es ist seit langem der Kernschwerpunkt der Datenbranche.

Google bringt es auf den Punkt: „Data Governance ist alles, was Sie tun, um sicherzustellen, dass Daten sicher, privat, genau, verfügbar und nutzbar sind.“ Dazu gehört die Festlegung interner Standards – Datenrichtlinien –, die dafür gelten, wie Daten erfasst, gespeichert, verarbeitet und entsorgt werden.“

Wie diese Definition verdeutlicht, geht es bei Data Governance um die Verwaltung von Daten – genau dem Motor, der KI-Modelle antreibt.

Nachdem sich nun die ersten Anzeichen für den Zusammenhang zwischen Data Governance und KI abzeichnen, wollen wir dies mit der KI-Müdigkeit in Verbindung bringen. Auch wenn der Name es verrät, sorgt die Hervorhebung der Gründe, die zu dieser Müdigkeit führen, dafür, dass dieser Begriff im gesamten Beitrag konsequent verwendet wird.  

Aufgrund der Rückschläge und Herausforderungen, mit denen Unternehmen, Entwickler oder Teams konfrontiert sind, kommt es zu einer KI-Müdigkeit, die oft zu einer erfolglosen Wertschöpfung oder Implementierung von KI-Systemen führt.

Am Anfang stehen meist unrealistische Erwartungen an die Fähigkeiten der KI. Bei anspruchsvollen Technologien wie KI müssen sich wichtige Interessengruppen nicht nur mit den Fähigkeiten und Möglichkeiten der KI, sondern auch mit ihren Grenzen und Risiken auseinandersetzen.

Wenn es um Risiken geht, wird Ethik oft als nachträglicher Gedanke betrachtet, der dazu führt, dass nicht konforme KI-Initiativen verworfen werden.

Sie fragen sich bestimmt, welche Rolle die Datenverwaltung bei der Entstehung von KI-Müdigkeit spielt – die Prämisse dieses Beitrags.

Dorthin gehen wir als nächstes. 

KI-Müdigkeit lässt sich grob in die Kategorien vor und nach der Bereitstellung einteilen. Konzentrieren wir uns zunächst auf die Vorbereitstellung.

Vor der Bereitstellung

Verschiedene Faktoren tragen zum Abschluss eines Proof of Concept (PoC) bis zur Bereitstellung bei, wie zum Beispiel:

  • Was versuchen wir zu lösen?
  • Warum ist es so zwingend, jetzt Prioritäten zu setzen?
  • Welche Daten sind verfügbar?
  • Ist es überhaupt ML-lösbar?
  • Haben Daten ein Muster?
  • Ist das Phänomen wiederholbar?
  • Welche zusätzlichen Daten würden die Modellleistung steigern?

 

Kann Data Governance der KI-Müdigkeit entgegenwirken?
Bild aus Freepik 
 

Sobald wir festgestellt haben, dass das Problem am besten mit ML-Algorithmen gelöst werden kann, führt das Data-Science-Team eine explorative Datenanalyse durch. In dieser Phase werden viele zugrunde liegende Datenmuster aufgedeckt, was zeigt, ob die gegebenen Daten reich an Signalen sind. Es hilft auch dabei, technische Funktionen zu erstellen, um den Lernprozess des Algorithmus zu beschleunigen.

Als nächstes erstellt das Team das erste Basismodell und stellt dabei häufig fest, dass die Leistung nicht das akzeptable Niveau erreicht. Ein Modell, dessen Leistung so gut ist wie ein Münzwurf, bietet keinen Mehrwert. Dies ist einer der ersten Rückschläge, auch Lektionen genannt, beim Erstellen von ML-Modellen.

Organisationen können von einem Geschäftsproblem zum nächsten übergehen, was zu Ermüdung führt. Wenn die zugrunde liegenden Daten jedoch kein reichhaltiges Signal enthalten, kann kein KI-Algorithmus darauf aufbauen. Das Modell muss die statistischen Zusammenhänge aus den Trainingsdaten lernen, um auf unsichtbare Daten zu verallgemeinern.

Post-Bereitstellung

Auch wenn das trainierte Modell im Validierungssatz vielversprechende Ergebnisse im Einklang mit den qualifizierenden Geschäftskriterien, wie z. B. 70 % Präzision, zeigt, kann es dennoch zu Ermüdungserscheinungen kommen, wenn das Modell in der Produktionsumgebung keine angemessene Leistung erbringt.

Diese Art der KI-Müdigkeit wird als Post-Deployment-Phase bezeichnet. 

Es gibt unzählige Gründe, die zu einer Leistungsverschlechterung führen können, wobei schlechte Datenqualität das häufigste Problem des Modells ist. Es schränkt die Fähigkeit des Modells ein, die Zielreaktion genau vorherzusagen, wenn entscheidende Attribute fehlen. 

Bedenken Sie, dass eines der wesentlichen Merkmale, das in den Trainingsdaten nur zu 10 % fehlte, in den Produktionsdaten nun in 50 % der Fälle Null wird, was zu fehlerhaften Vorhersagen führt. Solche Iterationen und Bemühungen, eine konsistente Leistung der Modelle sicherzustellen, führen zu Ermüdung bei den Datenwissenschaftlern und Geschäftsteams, wodurch das Vertrauen in die Datenpipelines untergraben wird und die in das Projekt getätigten Investitionen gefährdet werden.

Robuste Data-Governance-Maßnahmen sind von entscheidender Bedeutung, um beiden Arten der KI-Müdigkeit entgegenzuwirken. Da die Daten den Kern von ML-Modellen bilden, sind signalreiche, fehlerfreie und qualitativ hochwertige Daten ein Muss für den Erfolg eines ML-Projekts. Die Bekämpfung der KI-Müdigkeit erfordert einen starken Fokus auf die Datenverwaltung. Daher müssen wir rigoros daran arbeiten, die richtige Datenqualität sicherzustellen und die Grundlage für die Entwicklung hochmoderner Modelle und die Bereitstellung vertrauenswürdiger Geschäftserkenntnisse zu schaffen.

Datenqualität

Die Datenqualität, der Schlüssel zu einer erfolgreichen Datenverwaltung, ist ein entscheidender Erfolgsfaktor für Algorithmen für maschinelles Lernen. Unternehmen müssen in die Datenqualität investieren, beispielsweise durch die Veröffentlichung von Berichten für die Datenkonsumenten. Denken Sie bei datenwissenschaftlichen Projekten darüber nach, was passiert, wenn Daten schlechter Qualität in die Modelle gelangen, was zu einer schlechten Leistung führen kann.

Erst während der Fehleranalyse konnten die Teams die Bedenken hinsichtlich der Datenqualität identifizieren, die, wenn sie zur vorgelagerten Behebung weitergeleitet werden, letztendlich zu Ermüdung bei den Teams führen.

Offensichtlich ist es nicht nur der Aufwand, sondern es geht auch viel Zeit verloren, bis die richtigen Daten eintreffen.

Daher wird immer empfohlen, Datenprobleme an der Quelle zu beheben, um solche zeitaufwändigen Iterationen zu verhindern. Letztendlich weisen die veröffentlichten Datenqualitätsberichte darauf hin, dass das Datenwissenschaftsteam (oder auch alle anderen nachgeschalteten Benutzer und Datenkonsumenten) über die akzeptable Qualität der eingehenden Daten informiert ist.

Ohne Datenqualitäts- und Governance-Maßnahmen würden Datenwissenschaftler mit Datenproblemen überlastet, was zu erfolglosen Modellen und damit zu einer KI-Müdigkeit führen würde. 

Der Beitrag beleuchtete die beiden Phasen, in denen die KI-Müdigkeit einsetzt, und stellte dar, wie Data-Governance-Maßnahmen wie Datenqualitätsberichte den Aufbau vertrauenswürdiger und robuster Modelle ermöglichen können.

Durch die Schaffung einer soliden Grundlage durch Data Governance können Unternehmen einen Fahrplan für eine erfolgreiche und nahtlose KI-Entwicklung und -Einführung erstellen und so Begeisterung wecken.

Um sicherzustellen, dass der Beitrag einen ganzheitlichen Überblick über verschiedene Möglichkeiten zur Bekämpfung der KI-Müdigkeit gibt, betone ich auch die Rolle der Organisationskultur, die in Kombination mit anderen Best Practices wie Data Governance es Data-Science-Teams ermöglichen und befähigen wird, früher und sinnvollere KI-Beiträge zu leisten Schneller.
 
 

Vidhi Chugh ist ein KI-Stratege und ein Leiter der digitalen Transformation, der an der Schnittstelle von Produkt, Wissenschaft und Technik arbeitet, um skalierbare Systeme für maschinelles Lernen zu entwickeln. Sie ist eine preisgekrönte Innovationsführerin, Autorin und internationale Rednerin. Sie hat es sich zur Aufgabe gemacht, maschinelles Lernen zu demokratisieren und den Jargon zu brechen, damit jeder Teil dieser Transformation sein kann.

Zeitstempel:

Mehr von KDnuggets