Maskinlæringsmodeller er kraftige verktøy som kan hjelpe bedrifter med å ta mer informerte beslutninger og optimalisere driften. Men ettersom disse modellene distribueres og kjøres i produksjon, er de utsatt for et fenomen kjent som modelldrift.
Modelldrift oppstår når ytelsen til en maskinlæringsmodell forringes over tid på grunn av endringer i de underliggende dataene, noe som fører til unøyaktige spådommer og potensielt betydelige konsekvenser for en virksomhet. For å møte denne utfordringen, henvender organisasjoner seg til MLOps, et sett med praksiser og verktøy som hjelper til med å administrere livssyklusen til produksjonsmaskinlæring.
In this article, we’ll explore model drift, the different types of it, how to detect it, and most importantly, how to handle it in production using MLOps. By understanding and managing model drift, businesses can ensure that their machine learning models remain accurate and effective over time, delivering the insights and outcomes that they need to thrive.
Photo by Nicolas Peyrol on Unsplash
Modelldrift, også kjent som modellforfall, er et fenomen innen maskinlæring der modellytelsen avtar over tid. Dette betyr at modellen gradvis vil begynne å gi dårlige spådommer som vil redusere nøyaktigheten over tid.
Det er ulike årsaker til modellskifte som endringer i datainnsamling eller de underliggende sammenhengene mellom variabler. Derfor vil modellen ikke fange disse endringene, og ytelsen vil avta etter hvert som endringene øker.
Å oppdage og adressere modelldrift er en av de essensielle oppgavene som MLO-er løser. Teknikker som modellovervåking brukes for å oppdage tilstedeværelsen av modelldrift, og omskolering av modellen er en av hovedteknikkene som brukes for å overvinne modelldrift.
Det er viktig å forstå typen modelldrift for å oppdatere modellen basert på endringene som skjedde i dataene. Det er tre hovedtyper av drift:
Konseptdrift
Konseptavdrift oppstår når forholdet mellom målet og inngangen endres. Derfor vil ikke maskinlæringsalgoritmen gi en nøyaktig prediksjon. Det er fire hovedtyper av konseptdrift:
- Plutselig drift: En plutselig konseptdrift oppstår hvis forholdet mellom de uavhengige og avhengige variablene oppstår plutselig. Et veldig kjent eksempel er den plutselige forekomsten av covid 19-pandemien. Forekomsten av pandemien har plutselig endret forholdet mellom målvariabelen og funksjonene i forskjellige felt, slik at en prediktiv modell trent på forhåndstrente data ikke vil være i stand til å forutsi nøyaktig under pandemitiden.
- Gradvis drift: In a gradual concept drift, the relation between the input and the target may change slowly and subtly. This can result in a slow decline in the performance of a machine learning model, as the model becomes less accurate over time. An example of the gradual concept drift is fraudulent behavior. Fraudsters tend to understand how the fraud detection system works and change their behavior over time to escape the system. Therefore a machine learning model trained on historical fraudulent transaction data will not accurately predict the gradual changes in the fraudster’s behavior. For example, consider a machine learning model used for predicting stock prices in which the model is trained on data from the past five years and its performance is evaluated on new data from the current year. However, as time goes by, the market dynamics may change, and the relationship between the variables that influence stock prices may evolve gradually. This can result in incremental drift, where the model’s accuracy gradually deteriorates over time as it becomes less effective at capturing the changing relationship between the variables.
- Inkrementell drift: Inkrementell drift oppstår når forholdet mellom målvariabelen og inngangen endres gradvis over tid, noe som vanligvis oppstår på grunn av endringer i datagenereringsprosessen.
- Tilbakevendende drift: Dette er også kjent som sesongvariasjoner. Et typisk eksempel er økningen i salget i julen eller Black Friday. En maskinlæringsmodell som ikke tar hensyn til disse sesongmessige endringene, vil ende opp med å gi unøyaktige spådommer for disse sesongendringene.
Disse fire typene konseptdrift er vist i figuren nedenfor.
Typer begrepsdrift | Bilde fra Læring under Concept Drift: A Review.
Datadrift
Datadrift oppstår når de statistiske egenskapene til inndataene endres. Et eksempel på dette er endringen i aldersfordelingen til brukeren av en bestemt applikasjon over tid, derfor vil en modell som er trent på en spesifikk aldersfordeling som brukes til markedsføringsstrategier måtte endres ettersom endringen i alderen vil påvirke markedsstrategier.
Oppstrøms dataendringer
Den tredje typen drift er oppstrøms dataendringer. Dette refererer til operasjonelle dataendringer i datapipeline. Et typisk eksempel på dette er når en spesifikk funksjon ikke lenger genereres, noe som resulterer i en manglende verdi. Et annet eksempel er en endring i måleenheten for eksempel hvis en viss sensor måler mengde i Celsius og deretter endres til Fahrenheit.
Å oppdage modelldrift er ikke enkelt, og det er ingen universell metode for å oppdage det. Vi vil imidlertid diskutere noen av de populære metodene for å oppdage det:
- Kolmogorov-Smirnov-testen (KS-testen): KS-testen er en ikke-parametrisk test for å oppdage endringen i datafordelingen. Den brukes til å sammenligne treningsdata og ettertreningsdata og finne fordelingsendringene mellom dem. Nullhypotesen for dette testsettet sier at fordelingen fra de to datasettene er den samme, så hvis nullhypotesen forkastes, vil det derfor være et modellskifte.
- Befolkningsstabilitetsindeksen (PSI): PSI er et statistisk mål som brukes til å måle likheten i fordelingen av kategoriske variabler i to forskjellige datasett. Derfor kan den brukes til å måle endringene i egenskapene til kategoriske variabler i trenings- og post-treningsdatasettet.
- Page-Hinkley-metoden: Page-Hinkely er også en statistisk metode som brukes til å observere endringer i gjennomsnittet av data over tid. Det brukes vanligvis til å oppdage de små endringene i gjennomsnittet som ikke er synlige når man ser på dataene.
- Ytelsesovervåkning: En av de viktigste metodene for å oppdage konseptskiftet er å overvåke ytelsen til maskinlæringsmodellen i produksjon og observere dens endring, og hvis den krysser en viss terskel kan vi utløse en viss handling for å korrigere dette konseptskiftet.
Håndtering av drift i produksjonen | Bilde av ijeab på Freepik.
Finally, let’s see how to handle the detected model drift in production. There is a wide spectrum of strategies used to handle the model drift depending on the type of drift, the data we are working on, and the project in production. Here is a summary of the popular methods that are used to handle model drift in production:
- Online læring: Siden de fleste av de virkelige applikasjonene kjører på strømmedata, er nettbasert læring en av de vanlige metodene som brukes for å håndtere driften. I nettbasert læring oppdateres modellen på farten ettersom modellen tar for seg en prøve om gangen.
- Periodisk modellreduksjon: Når modellytelsen faller under en viss terskel eller et dataskift er observert, kan en trigger settes for å omskolere modellen med nyere data.
- Tren på nytt med jevne mellomrom på en representativ delprøve: En mer effektiv måte å håndtere konseptdrift på er å velge et representativt delutvalg av befolkningen og merke dem ved hjelp av menneskelige eksperter og omskolere modellen på dem.
- Funksjonsfall: Dette er en enkel, men effektiv metode som kan brukes til å håndtere konseptdrift. Ved å bruke denne metoden vil vi trene flere modeller som hver bruker én funksjon og for hver modell, AUC-ROC-responsen overvåkes deretter, og hvis verdien av AUC-ROC gikk utover en viss terskel ved å bruke en bestemt funksjon, kan vi droppe den som dette kan være med på drifting.
Referanser
I denne artikkelen diskuterte vi modelldrift, som er fenomenet innen maskinlæring hvor ytelsen til en modell forverres over tid på grunn av endringer i underliggende data. Bedrifter henvender seg til MLOps, et sett med praksiser og verktøy som styrer livssyklusen til maskinlæringsmodeller i produksjon, for å overvinne disse utfordringene.
Vi skisserte de forskjellige typene drift som kan oppstå, inkludert konseptdrift, datadrift og oppstrøms dataendringer, og hvordan man kan oppdage modelldrift ved å bruke metoder som Kolmogorov-Smirnov-testen, Population Stability Index og Page-Hinkley-metoden. Til slutt diskuterte vi de populære teknikkene for å håndtere modelldrift i produksjon, inkludert nettbasert læring, periodisk modellomopplæring, periodisk omskolering på et representativt delutvalg og funksjonsfall.
Youssef Rafaat er en datasynsforsker og dataforsker. Forskningen hans fokuserer på å utvikle sanntidsdatasynsalgoritmer for helsetjenester. Han jobbet også som dataforsker i mer enn 3 år innen markedsføring, finans og helsevesen.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
- Minting the Future med Adryenn Ashley. Tilgang her.
- Kjøp og selg aksjer i PRE-IPO-selskaper med PREIPO®. Tilgang her.
- kilde: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops
- : har
- :er
- :ikke
- :hvor
- $OPP
- a
- I stand
- Logg inn
- nøyaktighet
- nøyaktig
- nøyaktig
- Handling
- adresse
- adressering
- påvirke
- alder
- algoritme
- algoritmer
- også
- an
- og
- En annen
- tilsynelatende
- Søknad
- søknader
- ER
- Artikkel
- AS
- At
- dårlig
- basert
- BE
- blir
- under
- mellom
- Beyond
- Svart
- Black Friday
- virksomhet
- bedrifter
- men
- by
- CAN
- fange
- Catch
- Celsius
- viss
- utfordre
- utfordringer
- endring
- endret
- Endringer
- endring
- egenskaper
- jul
- samling
- Felles
- sammenligne
- datamaskin
- Datamaskin syn
- konsept
- Konsekvenser
- Vurder
- korrigere
- kunne
- Covid
- Gjeldende
- dato
- dataforsker
- datasett
- avtale
- avgjørelser
- Avslå
- redusere
- levere
- avhengig
- avhengig
- utplassert
- oppdaget
- Gjenkjenning
- utvikle
- forskjellig
- diskutere
- diskutert
- distribusjon
- domene
- Drop
- slippe
- to
- under
- dynamikk
- hver enkelt
- Effektiv
- slutt
- sikre
- flykte
- avgjørende
- Eter (ETH)
- evaluert
- utvikle seg
- eksempel
- eksperter
- utforske
- FAIL
- Falls
- berømt
- Trekk
- Egenskaper
- Felt
- Figur
- Endelig
- finansiere
- Finn
- fokuserer
- Til
- fire
- svindel
- svindeloppdagelse
- svindlere
- uredelig
- Fredag
- fra
- generert
- genererer
- Gi
- Går
- gradvis
- gradvis
- håndtere
- Ha
- he
- helsetjenester
- hjelpe
- her.
- hans
- historisk
- Hvordan
- Hvordan
- Men
- HTTPS
- menneskelig
- if
- bilde
- viktig
- in
- unøyaktig
- Inkludert
- Øke
- uavhengig
- indeks
- påvirke
- informert
- inngang
- innsikt
- inn
- IT
- DET ER
- jpg
- KDnuggets
- kjent
- merking
- ledende
- læring
- mindre
- Livssyklus
- ll
- lenger
- ser
- maskin
- maskinlæring
- Hoved
- gjøre
- administrer
- administrerende
- marked
- Marketing
- Markedsstrategier
- Kan..
- bety
- midler
- måle
- måling
- metode
- metoder
- kunne
- mangler
- MLOps
- modell
- modeller
- overvåket
- overvåking
- mer
- mest
- flere
- Trenger
- Ny
- Nicolas
- Nei.
- observere
- forekom
- of
- on
- gang
- ONE
- på nett
- Online læring
- operasjonell
- Drift
- Optimalisere
- or
- organisasjoner
- utfall
- skissert
- enn
- Overcome
- pandemi
- delta
- Spesielt
- Past
- ytelse
- periodisk
- fenomen
- rørledning
- plato
- Platon Data Intelligence
- PlatonData
- Populær
- befolkningen
- potensielt
- kraftig
- praksis
- forutsi
- forutsi
- prediksjon
- Spådommer
- tilstedeværelse
- Prisene
- prosess
- Produksjon
- prosjekt
- egenskaper
- gi
- gi
- kvantitet
- virkelige verden
- sanntids
- grunner
- nylig
- refererer
- forhold
- forholdet
- Relasjoner
- forbli
- representant
- forskning
- forsker
- svar
- resultere
- resulterende
- omskolering
- Kjør
- s
- salg
- samme
- Forsker
- sesongmessige
- se
- velge
- sett
- skift
- SKIFTENDE
- vist
- signifikant
- Enkelt
- siden
- langsom
- Sakte
- liten
- So
- LØSE
- noen
- spesifikk
- Spectrum
- Stabilitet
- Begynn
- Stater
- statistisk
- lager
- rett fram
- strategier
- streaming
- emne
- slik
- plutselig
- SAMMENDRAG
- system
- Target
- oppgaver
- teknikker
- test
- enn
- Det
- De
- deres
- Dem
- deretter
- Der.
- derfor
- Disse
- de
- Tredje
- denne
- tre
- terskel
- Thrive
- tid
- til
- verktøy
- Tog
- trent
- Kurs
- Transaksjonen
- utløse
- Turning
- to
- typen
- typer
- typisk
- etter
- underliggende
- forstå
- forståelse
- enhet
- Universell
- Oppdater
- oppdatert
- Oppstrøms data
- brukt
- Bruker
- ved hjelp av
- vanligvis
- verdi
- veldig
- syn
- Vei..
- we
- når
- hvilken
- bred
- vil
- med
- arbeidet
- arbeid
- virker
- år
- år
- zephyrnet