Rør ikke ved et datasæt uden at stille disse 10 spørgsmål

tags: datasæt, Distribution, Outliers, Privatliv, Standardisering

At vælge det rigtige datasæt er afgørende for dit AI-projekts succes.

By Sandeep Uttamchandani, Ph.D., både produkt-/softwarebygger (VP of Engg) og leder i drift af virksomhedsdækkende data/AI-initiativer (CDO)

Data efterforskning

Data er hjertet i et AI-produkt. Der er en voksende vægt på at tune dataene i stedet for at tune modellerne — opfundet af Andrew Ng som datacentreret AI. Efter min erfaring kan et AI-projekts succes eller fiasko forudsiges af de datasæt, der bruges.

Hvis du er en dataforsker/AI-ingeniør, der ønsker at bygge en ny model, eller en dataingeniør, der arbejder på at bygge pipelines til et AI-projekt, skal du stille følgende spørgsmål for hvert datasæt, du shortlist, for at undgå hovedpine og manglende forventninger senere i AI-livscyklussen.

1. Er betydningen af datasætattributter dokumenteret?

Før big data-æraen blev data kureret, før de blev tilføjet til det centrale datavarehus. Dette er kendt som schema-on-write. I dag er tilgangen med datasøer først at aggregere dataene og derefter udlede betydningen af data på forbrugstidspunktet. Dette er kendt som skema-på-læsning.

Dataattributter dokumenteres sjældent korrekt eller holdes ajour. Mens det at have dokumentationen kan ses som et skridt, der bremser projektet, bliver det faktisk ekstremt kritisk under modelfejlretningen. Identificer den Data Steward, der ejer datasættet, og sørg for, at de kan levere den mest nøjagtige dokumentation.

2. Er de aggregerede/afledte metrics i datasættet standardiserede?

Afledte data eller målinger kan have flere kilder til sandhed og forretningsdefinitioner. Sørg for, at metrics har en klar dokumenteret forretningsdefinition (nogle gange implicit i ETL)

3. Overholder datasættet reglerne om datarettigheder (såsom GDPR, CCPA osv.)

Datarettighedsbestemmelser er nu ved at blive kritiske — det er vigtigt at spore og håndhæve disse under modeltræning og genoptræning. Der er et stigende antal datarettighedsforordninger som GDPR, CCPA, Brazilian General Data Protection Act, Indiens lov om persondatabeskyttelse og flere andre, som vist i figuren. Disse love kræver, at kundedata indsamles, bruges og slettes baseret på deres præferencer. Der er forskellige aspekter af datarettigheder, nemlig: Indsamling af datarettigheder, Brug af datarettigheder, Sletning af datarettigheder, Adgang til datarettigheder.

4. Er der en klar ændringshåndteringsproces, således at ændringer i datasætskema/definition vil blive meddelt alle forbrugere?

Det er meget almindeligt, at skemaændringer ved kilden er ukoordinerede med downstream-behandling. Ændringerne kan variere fra skemaændringer (brud af eksisterende pipelines) til svære at opdage sematiske ændringer af dataattributterne. Når forretningsmålinger ændrer sig, mangler der også en versionering af definitionerne.

5. Hvilken kontekst er datasættet indsamlet i?

Datasæt fanger sjældent den ultimative sandhed fra et statistisk synspunkt. De fanger kun de attributter, som applikationsejerne krævede på det tidspunkt til deres brugssag. Det er vigtigt at analysere datasæt for bias og tabte data. At forstå konteksten af datasættet er superkritisk.

6. Er dataene IID?

implicit antagelse af modeltræning er, at dataene er IID (Uafhængig og identisk distribueret). Data har også en udløbsdato. Registreringer af kundeadfærd fra 10 år tilbage er muligvis ikke repræsentative.

7. Er datasættet testet/valideret for systematiske fejl i dataindsamlingen?

Hvis fejl i datasættet er tilfældige, er de mindre skadelige for modeltræning. Men hvis der er en fejl, så en specifik række eller kolonne systematisk mangler, kan det føre til en skævhed i datasættet. For eksempel mangler enhedsoplysninger om kundeklik for en brugerkategori på grund af en fejl, datasættet vil ikke være repræsentativt for virkeligheden.

8. Overvåges datasættet for pludselige distributionsændringer?

Datasæt er i konstant udvikling. Analyse af datafordelingen er ikke en engangsaktivitet, der kun kræves på tidspunktet for modeloprettelse. I stedet er der behov for løbende at overvåge datasæt for drifter, især til online træning.

9. Hvordan håndteres outliers i datasættet?

Outliers er ikke nødvendigvis dårlige og er nogle gange afgørende for at bygge modellen korrekt. Det er vigtigt at forstå, om afvigelserne bliver filtreret under indsamlingen, og hvad er logikken/kriterierne.

10. Har datasættet en tildelt Data Steward? (gælder for større hold)

Datasæt er ubrugelige, hvis de ikke kan forstås. At forsøge at ændre betydningen af kolonner er ofte en 'tabende kamp'. Nøglen er at sikre, at der er en Data Steward ansvarlig for et datasæt til at opdatere og udvikle dokumentationsdetaljerne.

Efter min erfaring hjælper svaret på disse spørgsmål med proaktivt at afdække kendte kendte, kendte ukendte og ukendte ukendte i datasættet. Det er ikke vigtigt, at hvert af spørgsmålene har et bekræftende svar. At tage disse svar i betragtning kan snarere fremskynde AI-livscyklussen og hjælpe med at undgå blinde vinkler.

Bio: Sandeep Uttamchandani, Ph.D.: Data + AI/ML — Både en produkt-/softwarebygger (VP of Engg) og leder i drift af virksomhedsdækkende data/AI-initiativer (CDO) | O'Reilly Bogforfatter | Grundlægger – DataForHumanity (non-profit)

Relateret:

= Forrige indlæg

Næste indlæg =>

Tophistorier de seneste 30 dage

Mest Populære
Læser du Excel-filer med Python? Der er en 1000x hurtigere måde Automatiser Microsoft Excel og Word ved hjælp af Python Dataforskere uden datatekniske færdigheder vil møde den barske sandhed Sådan opretter du fantastiske webapps til dine datavidenskabsprojekter En datavidenskabsportefølje, der giver dig jobbet

Mest delt
The Machine & Deep Learning Compendium åben bog Dataforskere uden datatekniske færdigheder vil møde den barske sandhed Hypotesetest forklaret Data Science Cheat Sheet 2.0 8 Deep Learning-projektideer for begyndere