Gegevensafwijking versus conceptafwijking: wat is het verschil?

Gegevensafwijking versus conceptafwijking: wat is het verschil?

Bronknooppunt: 1936845

Modelafwijking verwijst naar het fenomeen dat optreedt wanneer de prestaties van een machine learning-model in de loop van de tijd afnemen. Dit gebeurt om verschillende redenen, waaronder veranderingen in de gegevensdistributie, veranderingen in de doelen of doelstellingen van het model of veranderingen in de omgeving waarin het model werkt. Er zijn twee belangrijke soorten modelafwijking dat kan voorkomen: data drift en concept drift.

Data drift verwijst naar de veranderende verdeling van de gegevens waarop het model wordt toegepast. Conceptafwijking verwijst naar een veranderend onderliggend doel of doel voor het model. Zowel data drift als concept drift kunnen leiden tot een afname van de prestaties van een machine learning model.

Modelafwijking kan een groot probleem zijn voor machine learning-systemen die in de praktijk worden ingezet, omdat dit kan leiden tot onnauwkeurige of onbetrouwbare voorspellingen of beslissingen. Om modelafwijking aan te pakken, is het belangrijk om de prestaties van machine learning-modellen voortdurend in de loop van de tijd te bewaken en stappen te ondernemen om dit te voorkomen of te verminderen, zoals het opnieuw trainen van het model op nieuwe gegevens of het aanpassen van de parameters van het model. Deze controle- en bijregelsystemen dienen een integraal onderdeel te zijn van een software-implementatiesysteem voor ML-modellen.

Conceptafwijking versus gegevensafwijking: wat is het verschil?

Gegevensdrift

Datadrift, of covariate shift, verwijst naar het fenomeen waarbij de distributie van gegevensinvoer die een ML-model waarop is getraind, verschilt van de distributie van de gegevensinvoer waarop het model wordt toegepast. Dit kan ertoe leiden dat het model minder nauwkeurig of minder effectief wordt in het doen van voorspellingen of beslissingen.

Een wiskundige weergave van gegevensdrift kan als volgt worden uitgedrukt:

P(x|y) ≠ P(x|y')

Waarbij P(x|y) verwijst naar de kansverdeling van de invoergegevens (x) gegeven de uitvoergegevens (y), en P(x|y') de kansverdeling is van de invoergegevens gegeven de uitvoergegevens voor de nieuwe te waarop het model wordt toegepast (y').

Stel dat een ML-model is getraind op een dataset met klantgegevens van een bepaalde winkel en dat het model is gebruikt om te voorspellen of een klant een aankoop zal doen op basis van zijn leeftijd, inkomen en locatie. 

Als de verdeling van de invoergegevens (leeftijd, inkomen en locatie) voor de nieuwe gegevens die aan het model worden ingevoerd aanzienlijk verschilt van de verdeling van de invoergegevens in de trainingsgegevensset, kan dit leiden tot gegevensafwijking en kan het model minder nauwkeurig worden.

Datadrift overwinnen

Een manier om gegevensdrift tegen te gaan, is door technieken zoals weging of steekproeven te gebruiken om de verschillen in de gegevensverdelingen aan te passen. U kunt bijvoorbeeld de voorbeelden in de trainingsgegevensset wegen om beter overeen te komen met de invoergegevensdistributie voor de nieuwe gegevens waarop het model wordt toegepast. 

U kunt ook monsters nemen van de nieuwe gegevens en de trainingsgegevens om een ​​uitgebalanceerde gegevensset te maken voor het trainen van het model. Een andere benadering is het gebruik van domeinaanpassingstechnieken, die tot doel hebben het model aan te passen aan de nieuwe gegevensdistributie door een afbeelding te leren tussen het brondomein (de trainingsgegevens) en het doeldomein (de nieuwe gegevens). Een manier om dit te bereiken is door te gebruiken synthetische gegevensgeneratie algoritmen.

Begrip drift

Conceptafwijking treedt op wanneer er een verandering is in de functionele relatie tussen de invoer- en uitvoergegevens van een model. Het model blijft ondanks de gewijzigde context hetzelfde functioneren, niet op de hoogte van de veranderingen. De patronen die het tijdens de training heeft geleerd, kloppen dus niet meer.

Conceptafwijking wordt ook wel klasseafwijking of posterieure waarschijnlijkheidsverschuiving genoemd. Dit komt omdat het verwijst naar de veranderingen in kansen tussen verschillende situaties:

Pt1 (Y|X) ≠ Pt2 (Y|X)

Dit type drift wordt veroorzaakt door externe processen of gebeurtenissen. U kunt bijvoorbeeld een model hebben dat de kosten van levensonderhoud voorspelt op basis van geografische locatie, met verschillende regio's als input. Het ontwikkelingsniveau van elke regio kan echter stijgen of dalen, waardoor de kosten van levensonderhoud in de echte wereld veranderen. Het model verliest dus het vermogen om nauwkeurige voorspellingen te doen. 

De oorspronkelijke betekenis van "concept drift" is een verandering in hoe we specifieke labels begrijpen. Een voorbeeld is wat we in e-mails als 'spam' bestempelen. Patronen zoals frequente, massale e-mails werden ooit beschouwd als tekenen van spam, maar dat is tegenwoordig niet altijd het geval. Spamdetectoren die deze verouderde kenmerken nog steeds gebruiken, zullen minder effectief zijn bij het identificeren van spam omdat ze conceptafwijkingen hebben en opnieuw moeten worden getraind.

Hier zijn meer voorbeelden van conceptafwijking:

  • De impact van wijzigingen in de belastingcode op een model dat belastingnaleving voorspelt
  • De impact van evoluerend klantgedrag op een model dat productverkopen voorspelt
  • De impact van een financiële crisis op voorspellingen van de winst van een bedrijf

Conceptafwijking versus gegevensafwijking

Bij datadrift verandert de beslissingsgrens niet; alleen de kansverdeling van de ingangen verandert – P(x). Met concept drift verandert de beslissingsgrens, waarbij zowel de invoer- als de uitvoerverdeling verandert - P(x) en P(y). 

Een ander belangrijk verschil is dat datadrift vooral het gevolg is van interne factoren, zoals het verzamelen, verwerken en trainen van data. Conceptafwijking is meestal het gevolg van externe factoren, zoals de situatie in de echte wereld.

Strategieën om gegevens en conceptafwijkingen te detecteren en te overwinnen

Er zijn verschillende strategieën die kunnen helpen bij het detecteren en overwinnen van modelafwijkingen in een machine learning-systeem:

  • Prestatie monitoring: Het regelmatig evalueren van de prestaties van het ML-model op een verouderde dataset of in productie kan helpen bij het identificeren van eventuele achteruitgang in nauwkeurigheid of andere statistieken die kunnen duiden op modelafwijking.
  • Algoritmen voor gegevens- en conceptafwijkingsdetectie: Er zijn algoritmen die specifiek zijn ontworpen voor het detecteren van datadrift, zoals de Page-Hinkley-test of de Kolmogorov-Smirnov-test, evenals algoritmen die conceptdrift detecteren, zoals het ADWIN-algoritme. Deze algoritmen kunnen automatisch veranderingen in de invoergegevens of taak identificeren die kunnen duiden op modelafwijking.
  • Gegevens en technieken om drift te voorkomen: Deze technieken kunnen in de eerste plaats helpen voorkomen dat gegevens of concepten afdrijven. Het gebruik van gegevensaugmentatie of het genereren van synthetische gegevens kan er bijvoorbeeld voor zorgen dat een ML-model wordt blootgesteld aan een breed, representatief gegevensbereik, waardoor het beter bestand is tegen verschuivingen in de gegevensdistributie. Evenzo kan het gebruik van overdrachtsleren of multitask-leren het model helpen zich aan te passen aan een veranderende taak of doelstelling.
  • Bijscholing en bijsturing: Als modelafwijking wordt gedetecteerd, kan het opnieuw trainen of verfijnen van het model op nieuwe gegevens helpen om dit te verhelpen. Dit kan periodiek gebeuren, of naar aanleiding van significante wijzigingen in de gegevens of taak.

Door regelmatig te controleren op modelafwijking en proactieve maatregelen te nemen om dit te voorkomen of te verminderen, is het mogelijk om de nauwkeurigheid en betrouwbaarheid van machine learning-modellen in de loop van de tijd te behouden.

Conclusie

Concluderend zijn datadrift en modeldrift twee belangrijke fenomenen die de prestaties van machine learning (ML)-modellen kunnen beïnvloeden. 

Gegevensdrift, ook wel covariate shift genoemd, treedt op wanneer de distributie van de invoergegevens waarop een ML-model is getraind verschilt van de distributie van de invoergegevens waarop het model wordt toegepast. Modelafwijking, ook wel conceptafwijking genoemd, treedt op wanneer de statistische eigenschappen van de gegevens waarop een ML-model is getraind in de loop van de tijd veranderen. 

Zowel gegevensafwijking als modelafwijking kunnen ertoe leiden dat het model minder nauwkeurig of minder effectief wordt in het maken van voorspellingen of beslissingen, en het is belangrijk om deze fenomenen te begrijpen en aan te pakken om de prestaties van een ML-model in de loop van de tijd te behouden. 

Er zijn verschillende technieken die kunnen worden gebruikt om datadrift en modeldrift tegen te gaan, waaronder het opnieuw trainen van het model op basis van bijgewerkte gegevens, het gebruik van online leren of adaptief leren, en het bewaken van de prestaties van het model in de loop van de tijd.

Tijdstempel:

Meer van DATAVERSITEIT