Berühren Sie keinen Datensatz, ohne diese 10 Fragen zu stellen

Stichworte: Datensätze, Vertrieb, Ausreißer, Datenschutz, Standardisierung

Die Auswahl des richtigen Datensatzes ist entscheidend für den Erfolg Ihres KI-Projekts.

By Sandeep Uttamchandani, Ph.D., sowohl Produkt-/Software-Builder (VP of Engg) als auch führend im Betrieb unternehmensweiter Daten-/KI-Initiativen (CDO)

Datenexploration

Daten sind das Herzstück eines KI-Produkts. Es wird immer mehr Wert darauf gelegt, die Daten zu optimieren, anstatt die Modelle zu optimieren – geprägt von Andrew Ng as datenzentrierte KI. Meiner Erfahrung nach lässt sich der Erfolg oder Misserfolg eines KI-Projekts anhand der verwendeten Datensätze vorhersagen.

Wenn Sie ein Data Scientist/AI Engineer sind, der ein neues Modell erstellen möchte, oder ein Data Engineer, der an der Erstellung von Pipelines für ein KI-Projekt arbeitet, stellen Sie für jeden Datensatz, den Sie in die engere Auswahl nehmen, die folgenden Fragen, um später im KI-Lebenszyklus Kopfschmerzen und verpasste Erwartungen zu vermeiden.

1. Ist die Bedeutung von Datensatzattributen dokumentiert?

Vor dem Big-Data-Zeitalter wurden Daten kuratiert, bevor sie dem zentralen Data Warehouse hinzugefügt wurden. Dies wird als Schema beim Schreiben bezeichnet. Heutzutage besteht der Ansatz bei Datenseen darin, zuerst die Daten zu aggregieren und dann die Bedeutung der Daten zum Zeitpunkt des Verbrauchs abzuleiten. Dies wird als Schema beim Lesen bezeichnet.

Datenattribute werden selten korrekt dokumentiert oder aktuell gehalten. Während die Dokumentation als ein Schritt angesehen werden kann, der das Projekt verlangsamt, wird sie während des Modelldebuggens auf der ganzen Linie äußerst kritisch. Identifizieren Sie den Data Steward, der Eigentümer des Datensatzes ist, und stellen Sie sicher, dass er die genaueste Dokumentation bereitstellen kann.

2. Sind die aggregierten/abgeleiteten Metriken im Datensatz standardisiert?

Abgeleitete Daten oder Metriken können mehrere Wahrheitsquellen und Geschäftsdefinitionen haben. Stellen Sie sicher, dass die Metriken eine klar dokumentierte Geschäftsdefinition haben (manchmal implizit innerhalb der ETL)

3. Entspricht der Datensatz den Datenschutzbestimmungen (wie DSGVO, CCPA usw.)

Datenschutzbestimmungen werden jetzt kritisch – es ist wichtig, diese während des Modelltrainings und der Umschulung zu verfolgen und durchzusetzen. Es gibt eine wachsende Zahl von Datenschutzbestimmungen wie DSGVO, CCPA, brasilianisches Datenschutzgesetz, indisches Gesetz zum Schutz personenbezogener Daten und mehrere andere, wie in Abbildung gezeigt. Diese Gesetze verlangen, dass Kundendaten basierend auf ihren Präferenzen gesammelt, verwendet und gelöscht werden. Es gibt verschiedene Aspekte von Datenrechten, nämlich: Erhebung von Datenrechten, Nutzung von Datenrechten, Löschung von Datenrechten, Zugriff auf Datenrechte.

4. Gibt es einen klaren Änderungsmanagementprozess, so dass alle Benutzer über Änderungen des Datensatzschemas/der Definition informiert werden?

Es kommt sehr häufig vor, dass Schemaänderungen an der Quelle nicht mit der nachgelagerten Verarbeitung koordiniert werden. Die Änderungen können von Schemaänderungen (Unterbrechen bestehender Pipelines) bis hin zu schwer zu erkennenden sematischen Änderungen an den Datenattributen reichen. Wenn sich Geschäftsmetriken ändern, fehlt auch die Versionierung der Definitionen.

5. In welchem Kontext wurde der Datensatz erhoben?

Datensätze erfassen selten die ultimative Wahrheit aus statistischer Sicht. Sie erfassen nur die Attribute, die die Anwendungsbesitzer zu diesem Zeitpunkt für ihren Anwendungsfall benötigen. Es ist wichtig, Datensätze auf Verzerrungen und verworfene Daten zu analysieren. Das Verständnis des Kontexts des Datensatzes ist überkritisch.

6. Sind die Daten IID?

Das implizite Annahme des Modelltrainings ist, dass die Daten IID (Unabhängig und identisch verteilt). Außerdem haben Daten ein Ablaufdatum. Aufzeichnungen über das Kundenverhalten vor 10 Jahren sind möglicherweise nicht repräsentativ.

7. Wird der Datensatz auf systematische Fehler bei der Datenerhebung getestet/validiert?

Wenn Fehler im Dataset zufällig sind, sind sie für das Modelltraining weniger schädlich. Wenn jedoch ein Fehler vorliegt, bei dem eine bestimmte Zeile oder Spalte systematisch fehlt, kann dies zu einer Verzerrung des Datensatzes führen. Beispielsweise fehlen aufgrund eines Fehlers Gerätedetails zu Kundenklicks für eine Benutzerkategorie, der Datensatz entspricht nicht der Realität.

8. Wird der Datensatz auf plötzliche Verteilungsänderungen überwacht?

Datensätze entwickeln sich ständig weiter. Die Analyse der Datenverteilung ist keine einmalige Aktivität, die nur zum Zeitpunkt der Modellerstellung erforderlich ist. Stattdessen besteht die Notwendigkeit, Datensätze kontinuierlich auf Drifts zu überwachen, insbesondere für Online-Training.

9. Wie werden Ausreißer im Datensatz behandelt?

Ausreißer sind nicht unbedingt schlecht und manchmal unerlässlich, um das Modell korrekt zu erstellen. Es ist wichtig zu verstehen, ob die Ausreißer während der Erfassung gefiltert werden und was die Logik/Kriterien sind.

10. Hat der Datensatz einen zugewiesenen Data Steward? (gilt für größere Teams)

Datensätze sind nutzlos, wenn sie nicht verstanden werden können. Der Versuch, die Bedeutung von Spalten zu rekonstruieren, ist oft ein „verlierender Kampf“. Der Schlüssel besteht darin, sicherzustellen, dass es einen Data Steward gibt, der für einen Datensatz verantwortlich ist, um die Dokumentationsdetails zu aktualisieren und weiterzuentwickeln.

Nach meiner Erfahrung hilft die Antwort auf diese Fragen, proaktiv aufzudecken bekannte Bekannte, bekannte Unbekannte und unbekannte Unbekannte im Datensatz. Es ist nicht wichtig, dass jede der Fragen eine bejahende Antwort hat. Vielmehr kann die Berücksichtigung dieser Reaktionen den KI-Lebenszyklus beschleunigen und dazu beitragen, blinde Flecken zu vermeiden.

Bio: Sandeep Uttamchandani, Ph.D.: Daten + KI/ML — Sowohl ein Produkt-/Software-Builder (VP von Engg) als auch führend im Betrieb unternehmensweiter Daten-/KI-Initiativen (CDO) | O'Reilly Buchautor | Gründer – DataForHumanity (gemeinnützig)

Related: