Raak een dataset niet aan zonder deze 10 vragen te stellen

Tags: datasets, Distributie, Uitschieters, Privacy, normalisering

Het selecteren van de juiste dataset is cruciaal voor het succes van uw AI-project.

By Sandeep Uttamchandani, Ph.D., zowel een product-/softwarebouwer (VP van Engg) als leider in het uitvoeren van bedrijfsbrede data/AI-initiatieven (CDO)

Gegevensverkenning

Data vormen het hart van een AI-product. Er is een groeiende nadruk op het afstemmen van de gegevens in plaats van het afstemmen van de modellen - bedacht door Andrew Ng as datacentrische AI. In mijn ervaring kan het succes of falen van een AI-project worden voorspeld door de datasets die worden gebruikt.

Als je een datawetenschapper/AI-ingenieur bent die een nieuw model wil bouwen of een data-engineer die werkt aan het bouwen van pijplijnen voor een AI-project, stel dan voor elke dataset die je op de shortlist zet de volgende vragen om hoofdpijn en gemiste verwachtingen later in de AI-levenscyclus te voorkomen.

1. Is de betekenis van datasetattributen gedocumenteerd?

Voorafgaand aan het big data-tijdperk werden data samengesteld voordat ze werden toegevoegd aan het centrale datawarehouse. Dit staat bekend als schema-on-write. Tegenwoordig is de benadering met datameren om eerst de gegevens samen te voegen en vervolgens de betekenis van gegevens af te leiden op het moment van consumptie. Dit staat bekend als schema-on-read.

Gegevensattributen worden zelden correct gedocumenteerd of up-to-date gehouden. Hoewel het hebben van de documentatie kan worden gezien als een stap die het project vertraagt, wordt het tijdens het debuggen van modellen in feite uiterst kritiek. Identificeer de Data Steward die eigenaar is van de dataset en zorg ervoor dat deze de meest nauwkeurige documentatie kan verstrekken.

2. Zijn de geaggregeerde/afgeleide metrieken in de dataset gestandaardiseerd?

Afgeleide gegevens of statistieken kunnen meerdere bronnen van waarheid en bedrijfsdefinities hebben. Zorg ervoor dat de statistieken een duidelijk gedocumenteerde bedrijfsdefinitie hebben (soms impliciet in de ETL)

3. Voldoet de dataset aan de regelgeving inzake gegevensrechten (zoals GDPR, CCPA, enz.)

Regelgeving voor gegevensrechten wordt nu van cruciaal belang - het is belangrijk om deze bij te houden en af te dwingen tijdens modeltraining en hertraining. Er is een groeiend aantal voorschriften voor gegevensrechten, zoals de AVG, CCPA, de Braziliaanse algemene wet op de gegevensbescherming, de Indiase wet op de bescherming van persoonsgegevens en verschillende andere, zoals weergegeven in figuur. Deze wetten vereisen dat klantgegevens worden verzameld, gebruikt en verwijderd op basis van hun voorkeuren. Er zijn verschillende aspecten van gegevensrechten, te weten: Verzamelen van gegevensrechten, Gebruik van gegevensrechten, Verwijderen van gegevensrechten, Toegang tot gegevensrechten.

4. Is er een duidelijk wijzigingsbeheerproces zodat wijzigingen in het datasetschema/definitie aan alle consumenten worden meegedeeld?

Het komt vaak voor dat schemawijzigingen aan de bron niet gecoördineerd zijn met downstream-verwerking. De wijzigingen kunnen variëren van schemawijzigingen (bestaande pijplijnen verbreken) tot moeilijk te detecteren sematische wijzigingen in de gegevensattributen. Wanneer de bedrijfsstatistieken veranderen, is er ook een gebrek aan versiebeheer van de definities.

5. Wat is de context waarin de dataset is verzameld?

Datasets bevatten zelden de ultieme waarheid vanuit statistisch oogpunt. Ze leggen alleen de attributen vast die de applicatie-eigenaren op dat moment nodig hadden voor hun use case. Het is belangrijk om datasets te analyseren op vertekening en verloren data. Het begrijpen van de context van de dataset is superkritisch.

6. Zijn de gegevens IID?

De impliciete aanname van modeltraining is dat de gegevens zijn IID (Onafhankelijk en identiek gedistribueerd). Ook hebben gegevens een vervaldatum. Registraties van klantgedrag van 10 jaar geleden zijn mogelijk niet representatief.

7. Is de dataset getest/gevalideerd op systematische fouten in de dataverzameling?

Als fouten in de dataset willekeurig zijn, zijn ze minder schadelijk voor modeltraining. Maar als er een bug is waardoor een specifieke rij of kolom systematisch ontbreekt, kan dit leiden tot een vertekening in de dataset. Als apparaatdetails van klantklikken bijvoorbeeld ontbreken voor een gebruikerscategorie vanwege een bug, zal de dataset niet representatief zijn voor de werkelijkheid.

8. Wordt de dataset gecontroleerd op plotselinge distributieveranderingen?

Datasets evolueren voortdurend. Analyse van de gegevensdistributie is geen eenmalige activiteit die alleen vereist is op het moment dat het model wordt gemaakt. In plaats daarvan is het nodig om datasets voortdurend te controleren op driften, vooral voor online training.

9. Hoe wordt omgegaan met uitschieters in de dataset?

Uitschieters zijn niet noodzakelijkerwijs slecht en zijn soms essentieel om het model correct op te bouwen. Het is belangrijk om te begrijpen of de uitschieters worden gefilterd tijdens het verzamelen en wat de logica/criteria zijn.

10. Heeft de dataset een toegewezen Data Steward? (van toepassing op grotere teams)

Datasets zijn nutteloos als ze niet begrepen kunnen worden. Proberen de betekenis van kolommen te reverse-engineeren is vaak een 'verloren strijd'. De sleutel is om ervoor te zorgen dat er een Data Steward is die verantwoordelijk is voor een dataset om de documentatiedetails bij te werken en te ontwikkelen.

In mijn ervaring helpt het antwoord op deze vragen proactief te ontdekken bekende bekenden, bekende onbekenden en onbekende onbekenden in de dataset. Het is niet belangrijk dat elk van de vragen een bevestigend antwoord heeft. Integendeel, rekening houden met deze reacties kan de levenscyclus van AI versnellen en blinde vlekken helpen voorkomen.

Bio: Sandeep Uttamchandani, Ph.D.: Data + AI/ML — zowel een product-/softwarebouwer (VP van Engg) als leider in het uitvoeren van ondernemingsbrede data/AI-initiatieven (CDO) | O'Reilly Boek Auteur | Oprichter – DataForHumanity (non-profit)

Zie ook:

= Vorige post

Volgende post =>

Topverhalen afgelopen 30 dagen

Meest populair
Leest u Excel-bestanden met Python? Er is een 1000x snellere manier Automatiseer Microsoft Excel en Word met Python Datawetenschappers zonder data-engineeringvaardigheden zullen de harde waarheid onder ogen zien Verbluffende webapps maken voor uw datawetenschapsprojecten Een datawetenschapsportfolio die u de baan zal bezorgen

meest gedeeld
The Machine & Deep Learning Compendium Open boek Datawetenschappers zonder data-engineeringvaardigheden zullen de harde waarheid onder ogen zien Hypothesetest uitgelegd Cheatsheet voor gegevenswetenschap 2.0 8 Deep Learning-projectideeën voor beginners