Datadrift vs. konceptdrift: Hvad er forskellen?

Datadrift vs. konceptdrift: Hvad er forskellen?

Kildeknude: 1936845

Modeldrift refererer til det fænomen, der opstår, når en maskinlæringsmodels ydeevne forringes med tiden. Dette sker af forskellige årsager, herunder ændringer i datafordelingen, ændringer i modellens mål eller målsætninger eller ændringer i det miljø, som modellen opererer i. Der er to hoved typer af modeldrift der kan forekomme: datadrift og konceptdrift.

Datadrift refererer til den skiftende fordeling af de data, som modellen anvendes på. Begrebsdrift refererer til et skiftende underliggende mål eller mål for modellen. Både datadrift og konceptdrift kan føre til et fald i ydeevnen af ​​en machine learning model.

Modeldrift kan være et betydeligt problem for maskinlæringssystemer, der er implementeret i virkelige omgivelser, da det kan føre til unøjagtige eller upålidelige forudsigelser eller beslutninger. For at imødegå modeldrift er det vigtigt konstant at overvåge maskinlæringsmodellernes ydeevne over tid og tage skridt til at forhindre eller afbøde den, såsom at genoptræne modellen på nye data eller justere modellens parametre. Disse overvågnings- og justeringssystemer skal være en integreret del af en softwareimplementeringssystem til ML-modeller.

Concept Drift vs Data Drift: Hvad er forskellen?

Datadrift

Datadrift eller kovariatforskydning refererer til det fænomen, hvor fordelingen af ​​datainput, som en ML model blev trænet på adskiller sig fra fordelingen af ​​de datainput, som modellen anvendes på. Dette kan resultere i, at modellen bliver mindre præcis eller effektiv til at lave forudsigelser eller beslutninger.

En matematisk repræsentation af datadrift kan udtrykkes som følger:

P(x|y) ≠ P(x|y')

Hvor P(x|y) refererer til inputdataens sandsynlighedsfordeling (x) givet outputdataene (y), og P(x|y') er sandsynlighedsfordelingen af ​​inputdataene givet outputdataene for de nye data til hvilken modellen er anvendt (y').

Antag for eksempel, at en ML-model blev trænet på et datasæt med kundedata fra en bestemt detailbutik, og modellen blev brugt til at forudsige, om en kunde ville foretage et køb baseret på deres alder, indkomst og placering. 

Hvis inputdataens fordeling (alder, indkomst og lokation) for de nye data, der tilføres modellen, adskiller sig væsentligt fra fordelingen af ​​inputdataene i træningsdatasættet, kan dette føre til datadrift og resultere i, at modellen bliver mindre nøjagtig.

Overvinde datadrift

En måde at overvinde datadrift på er at bruge teknikker såsom vægtning eller stikprøve til at justere for forskellene i datafordelingerne. For eksempel kan du vægte eksemplerne i træningsdatasættet for at matche inputdatafordelingen for de nye data, som modellen vil blive anvendt på. 

Alternativt kan du prøve fra de nye data og træningsdataene for at skabe et afbalanceret datasæt til træning af modellen. En anden tilgang er at anvende domænetilpasningsteknikker, som har til formål at tilpasse modellen til den nye datadistribution ved at lære en kortlægning mellem kildedomænet (træningsdataene) og måldomænet (de nye data). En måde at opnå dette på er ved at bruge generering af syntetiske data algoritmer.

Konceptdrift

Begrebsdrift opstår, når der er en ændring i det funktionelle forhold mellem en models input- og outputdata. Modellen fortsætter med at fungere på samme måde på trods af den ændrede kontekst, uvidende om ændringerne. De mønstre, den har lært under træningen, er således ikke længere nøjagtige.

Begrebsdrift kaldes også nogle gange klassedrift eller posterior sandsynlighedsforskydning. Dette skyldes, at det refererer til ændringerne i sandsynligheder mellem forskellige situationer:

Pt1 (Y|X) ≠ Pt2 (Y|X)

Denne type afdrift er forårsaget af eksterne processer eller begivenheder. For eksempel kan du have en model, der forudsiger leveomkostningerne baseret på geografisk placering, med forskellige regioner som input. Udviklingsniveauet i hver region kan dog stige eller falde, hvilket ændrer leveomkostningerne i den virkelige verden. Dermed mister modellen evnen til at lave præcise forudsigelser. 

Den oprindelige betydning af "begrebsdrift" er en ændring i, hvordan vi forstår specifikke etiketter. Et eksempel er, hvad vi betegner som "spam" i e-mails. Mønstre som hyppige massemails blev engang betragtet som tegn på spam, men det er ikke altid tilfældet i dag. Spam-detektorer, der stadig bruger disse forældede attributter, vil være mindre effektive, når de identificerer spam, fordi de har konceptdrift og kræver genoptræning.

Her er flere eksempler på konceptdrift:

  • Indvirkningen af ​​ændringer i skattelovgivningen på en model, der forudsiger skatteoverholdelse
  • Indvirkningen af ​​udviklende kundeadfærd på en model, der forudsiger produktsalg
  • Indvirkningen af ​​en finanskrise på forudsigelser af en virksomheds overskud

Konceptdrift vs. Datadrift

Med datadrift ændres beslutningsgrænsen ikke; kun sandsynlighedsfordelingen af ​​inputs ændres – P(x). Med konceptdrift ændres beslutningsgrænsen, idet både input- og outputfordelingen ændres – P(x) og P(y). 

En anden vigtig forskel er, at datadrift hovedsageligt er resultatet af interne faktorer, såsom dataindsamling, behandling og træning. Begrebsdrift skyldes typisk eksterne faktorer, såsom situationen i den virkelige verden.

Strategier til at opdage og overvinde data- og konceptdrift

Der er flere strategier, der kan hjælpe med at opdage og overvinde modeldrift i et maskinlæringssystem:

  • Ydeevneovervågning: Regelmæssig evaluering af ML-modellens ydeevne på et holdout-datasæt eller i produktion kan hjælpe med at identificere ethvert fald i nøjagtighed eller andre målinger, der kan indikere modeldrift.
  • Algoritmer til registrering af data og konceptdrift: Der er algoritmer specielt designet til at detektere datadrift, såsom Page-Hinkley-testen eller Kolmogorov-Smirnov-testen, såvel som algoritmer, der detekterer konceptdrift, såsom ADWIN-algoritmen. Disse algoritmer kan automatisk identificere ændringer i inputdata eller opgave, der kan indikere modeldrift.
  • Teknikker til forebyggelse af data og konceptdrift: Disse teknikker kan hjælpe med at forhindre data- eller konceptdrift i at forekomme i første omgang. For eksempel kan brug af dataaugmentation eller syntetisk datagenerering være med til at sikre, at en ML-model har eksponering for et bredt, repræsentativt udvalg af data, hvilket kan gøre den mere modstandsdygtig over for skift i datadistributionen. På samme måde kan brug af overførselslæring eller multitask-læring hjælpe modellen med at tilpasse sig en skiftende opgave eller målsætning.
  • Omskoling og finjustering: Hvis modelafdrift detekteres, kan genoptræning eller finjustering af modellen på nye data hjælpe med at overvinde det. Dette kan gøres periodisk eller som reaktion på væsentlige ændringer i data eller opgave.

Ved regelmæssigt at overvåge modeldrift og tage proaktive skridt for at forhindre eller afbøde den, er det muligt at opretholde nøjagtigheden og pålideligheden af ​​maskinlæringsmodeller over tid.

Konklusion

Som konklusion er datadrift og modeldrift to vigtige fænomener, der kan påvirke ydeevnen af ​​maskinlæringsmodeller (ML). 

Datadrift, også kendt som kovariatforskydning, opstår, når fordelingen af ​​de inputdata, som en ML-model blev trænet på, adskiller sig fra fordelingen af ​​inputdataene, som modellen anvendes på. Modeldrift, også kendt som konceptdrift, opstår, når de statistiske egenskaber af de data, som en ML-model blev trænet på, ændres over tid. 

Både datadrift og modeldrift kan føre til, at modellen bliver mindre præcis eller effektiv til at foretage forudsigelser eller beslutninger, og det er vigtigt at forstå og adressere disse fænomener for at opretholde en ML-models ydeevne over tid. 

Der er forskellige teknikker, der kan bruges til at overvinde datadrift og modeldrift, herunder genoptræning af modellen på opdaterede data, brug af online læring eller adaptiv læring og overvågning af modellens ydeevne over tid.

Tidsstempel:

Mere fra DATAVERSITET