Maskininlärningsmodeller är kraftfulla verktyg som kan hjälpa företag att fatta mer välgrundade beslut och optimera sin verksamhet. Men eftersom dessa modeller används och körs i produktion är de föremål för ett fenomen som kallas modelldrift.
Modelldrift uppstår när prestandan för en maskininlärningsmodell försämras över tiden på grund av förändringar i underliggande data, vilket leder till felaktiga förutsägelser och potentiellt betydande konsekvenser för ett företag. För att möta denna utmaning vänder sig organisationer till MLOps, en uppsättning metoder och verktyg som hjälper till att hantera livscykeln för produktionsmaskininlärning.
I den här artikeln kommer vi att utforska modelldrift, de olika typerna av den, hur man upptäcker den och viktigast av allt, hur man hanterar den i produktionen med hjälp av MLOps. Genom att förstå och hantera modelldrift kan företag säkerställa att deras maskininlärningsmodeller förblir korrekta och effektiva över tid, och levererar de insikter och resultat som de behöver för att blomstra.
Foto: Nicolas Peyrol on Unsplash
Modelldrift, även känt som modellförfall, är ett fenomen inom maskininlärning där modellens prestanda minskar med tiden. Detta innebär att modellen gradvis kommer att börja ge dåliga förutsägelser som kommer att minska noggrannheten över tid.
Det finns olika orsaker till modellskifte såsom förändringar i datainsamling eller de underliggande sambanden mellan variabler. Därför kommer modellen inte att fånga dessa förändringar och prestandan kommer att minska när förändringarna ökar.
Att upptäcka och adressera modelldrift är en av de väsentliga uppgifterna som MLOps löser. Tekniker som modellövervakning används för att upptäcka förekomsten av modelldrift och modellomträning är en av de viktigaste teknikerna som används för att övervinna modelldrift.
Det är viktigt att förstå typen av modelldrift för att uppdatera modellen baserat på de förändringar som inträffade i data. Det finns tre huvudtyper av drift:
Konceptdrift
Begreppsdrift uppstår när förhållandet mellan målet och ingången ändras. Därför kommer maskininlärningsalgoritmen inte att ge en korrekt förutsägelse. Det finns fyra huvudtyper av konceptdrift:
- Plötslig drift: En plötslig begreppsdrift uppstår om förhållandet mellan de oberoende och beroende variablerna uppstår plötsligt. Ett mycket känt exempel är den plötsliga förekomsten av covid 19-pandemin. Förekomsten av pandemin har plötsligt förändrat förhållandet mellan målvariabeln och funktionerna i olika fält, så en prediktiv modell tränad på förtränad data kommer inte att kunna förutsäga under pandemitiden exakt.
- Gradvis drift: I en gradvis begreppsdrift kan förhållandet mellan ingången och målet förändras långsamt och subtilt. Detta kan resultera i en långsam minskning av prestandan för en maskininlärningsmodell, eftersom modellen blir mindre exakt med tiden. Ett exempel på den gradvisa begreppsdriften är bedrägligt beteende. Bedragare tenderar att förstå hur bedrägeriupptäcktssystemet fungerar och ändra sitt beteende över tid för att komma undan systemet. Därför kommer en maskininlärningsmodell som tränas på historiska bedrägliga transaktionsdata inte exakt att förutsäga de gradvisa förändringarna i bedragarens beteende. Tänk till exempel på en maskininlärningsmodell som används för att förutsäga aktiekurser där modellen tränas på data från de senaste fem åren och dess prestanda utvärderas på ny data från innevarande år. Men allt eftersom tiden går kan marknadsdynamiken förändras och förhållandet mellan de variabler som påverkar aktiekurserna kan utvecklas gradvis. Detta kan resultera i inkrementell drift, där modellens noggrannhet gradvis försämras med tiden eftersom den blir mindre effektiv för att fånga det förändrade förhållandet mellan variablerna.
- Inkrementell drift: Inkrementell drift uppstår när förhållandet mellan målvariabeln och inmatningen ändras gradvis över tiden, vilket vanligtvis sker på grund av förändringar i datagenereringsprocessen.
- Återkommande drift: Detta är också känt som säsongsvariationer. Ett typiskt exempel är försäljningsökningen under jul eller Black Friday. En maskininlärningsmodell som inte tar hänsyn till dessa säsongsförändringar kommer att ge felaktiga förutsägelser för dessa säsongsförändringar.
Dessa fyra typer av konceptdrift visas i figuren nedan.
Typer av begreppsdrift | Bild från Lärande under Concept Drift: A Review.
Datadrift
Datadrift uppstår när de statistiska egenskaperna för indata ändras. Ett exempel på detta är förändringen i åldersfördelningen för användaren av en viss applikation över tid, därför måste en modell som tränas på en specifik åldersfördelning som används för marknadsföringsstrategier ändras eftersom förändringen i åldern kommer att påverka marknadsföringsstrategier.
Uppströms dataändringar
Den tredje typen av drift är uppströmsdataändringarna. Detta avser de operativa dataändringarna i datapipeline. Ett typiskt exempel på detta är när en specifik funktion inte längre genereras vilket resulterar i ett saknat värde. Ett annat exempel är en förändring av måttenheten om till exempel en viss sensor mäter kvantitet i Celsius och sedan ändras till Fahrenheit.
Att upptäcka modelldrift är inte okomplicerat och det finns ingen universell metod för att upptäcka det. Men vi kommer att diskutera några av de populära metoderna för att upptäcka det:
- Kolmogorov-Smirnov-testet (KS-testet): KS-testet är ett icke-parametriskt test för att upptäcka förändringen i datafördelningen. Den används för att jämföra träningsdata och efter träningsdata och hitta fördelningsförändringarna mellan dem. Nollhypotesen för denna testuppsättning säger att fördelningen från de två datamängderna är densamma, så om nollhypotesen förkastas kommer det därför att ske ett modellskifte.
- Population Stability Index (PSI): PSI är ett statistiskt mått som används för att mäta likheten i fördelningen av kategoriska variabler i två olika datamängder. Därför kan den användas för att mäta förändringarna i egenskaperna hos kategoriska variabler i tränings- och efterträningsdataset.
- Page-Hinkley-metoden: Page-Hinkely är också en statistisk metod som används för att observera förändringar i medelvärdet av data över tid. Det används vanligtvis för att upptäcka de små förändringarna i medelvärdet som inte är uppenbara när man tittar på data.
- Prestandaövervakning: En av de viktigaste metoderna för att upptäcka konceptförskjutningen är att övervaka prestandan hos maskininlärningsmodellen i produktionen och observera dess förändring och om den passerar en viss tröskel kan vi utlösa en viss åtgärd för att korrigera detta konceptskifte.
Hantering av drift i produktionen | Bild av ijeab på Freepik.
Låt oss slutligen se hur man hanterar den upptäckta modelldriften i produktionen. Det finns ett brett spektrum av strategier som används för att hantera modelldriften beroende på typen av drift, vilken data vi arbetar med och projektet i produktion. Här är en sammanfattning av de populära metoderna som används för att hantera modelldrift i produktionen:
- Online-lärande: Eftersom de flesta av de verkliga applikationerna körs på strömmande data, är onlineinlärning en av de vanligaste metoderna som används för att hantera driften. I onlineinlärning uppdateras modellen i farten eftersom modellen handlar om ett prov i taget.
- Periodiskt modellomträna: När modellens prestanda faller under ett visst tröskelvärde eller ett dataskifte observeras kan en trigger ställas in för att träna om modellen med nyare data.
- Omträna regelbundet på ett representativt delprov: Ett mer effektivt sätt att hantera konceptdrift är att välja ett representativt delprov av befolkningen och märka dem med hjälp av mänskliga experter och omskola modellen på dem.
- Funktionsnedsättning: Detta är en enkel men effektiv metod som kan användas för att hantera konceptdrift. Med den här metoden kommer vi att träna flera modeller var och en med en funktion och för varje modell övervakas sedan AUC-ROC-svaret, och om värdet på AUC-ROC gick över en viss tröskel med en viss funktion kan vi släppa det som detta kan delta i drifting.
Referensprojekt
I den här artikeln diskuterade vi modelldrift, vilket är fenomenet inom maskininlärning där prestandan för en modell försämras över tid på grund av förändringar i underliggande data. Företag vänder sig till MLOps, en uppsättning metoder och verktyg som hanterar livscykeln för maskininlärningsmodeller i produktion, för att övervinna dessa utmaningar.
Vi beskrev de olika typerna av drift som kan uppstå, inklusive konceptdrift, datadrift och dataförändringar uppströms, och hur man upptäcker modelldrift med metoder som Kolmogorov-Smirnov-testet, Population Stability Index och Page-Hinkley-metoden. Slutligen diskuterade vi de populära teknikerna för att hantera modelldrift i produktionen inklusive onlineinlärning, periodisk modellomträning, periodisk omträning på ett representativt delprov och funktionsbortfall.
Youssef Rafaat är en datorseendeforskare och datavetare. Hans forskning fokuserar på att utveckla datorseendealgoritmer i realtid för vårdtillämpningar. Han arbetade också som datavetare i mer än 3 år inom marknadsföring, ekonomi och hälsovård.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoAiStream. Web3 Data Intelligence. Kunskap förstärkt. Tillgång här.
- Minting the Future med Adryenn Ashley. Tillgång här.
- Köp och sälj aktier i PRE-IPO-företag med PREIPO®. Tillgång här.
- Källa: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops
- : har
- :är
- :inte
- :var
- $UPP
- a
- Able
- Konto
- noggrannhet
- exakt
- exakt
- Handling
- adress
- adresse
- påverka
- ålder
- algoritm
- algoritmer
- också
- an
- och
- Annan
- skenbar
- Ansökan
- tillämpningar
- ÄR
- Artikeln
- AS
- At
- Badrum
- baserat
- BE
- blir
- nedan
- mellan
- Bortom
- Svart
- Black Friday
- företag
- företag
- men
- by
- KAN
- Fångande
- brottning
- Celsius
- vissa
- utmanar
- utmaningar
- byta
- ändrats
- Förändringar
- byte
- egenskaper
- Jul
- samling
- Gemensam
- jämföra
- dator
- Datorsyn
- begrepp
- Konsekvenser
- Tänk
- korrekt
- kunde
- Covidien
- Aktuella
- datum
- datavetare
- datauppsättningar
- behandla
- beslut
- Nedgång
- minskning
- leverera
- beroende
- beroende
- utplacerade
- detekterad
- Detektering
- utveckla
- olika
- diskutera
- diskuteras
- fördelning
- domän
- Drop
- Drop
- grund
- under
- Dynamiken
- varje
- Effektiv
- änden
- säkerställa
- fly
- väsentlig
- Eter (ETH)
- utvärderade
- utvecklas
- exempel
- experter
- utforska
- MISSLYCKAS
- Falls
- kända
- Leverans
- Funktioner
- Fält
- Figur
- Slutligen
- finansiering
- hitta
- fokuserar
- För
- fyra
- bedrägeri
- spårning av bedrägerier
- bedragare
- bedräglig
- Fredag
- från
- genereras
- generera
- Ge
- Går
- gradvis
- gradvis
- hantera
- Har
- he
- hälso-och sjukvård
- hjälpa
- här.
- hans
- historisk
- Hur ser din drömresa ut
- How To
- Men
- HTTPS
- humant
- if
- bild
- med Esport
- in
- felaktig
- Inklusive
- Öka
- oberoende
- index
- påverka
- informeras
- ingång
- insikter
- in
- IT
- DESS
- jpg
- KDnuggets
- känd
- märkning
- ledande
- inlärning
- mindre
- livscykel
- ll
- längre
- du letar
- Maskinen
- maskininlärning
- Huvudsida
- göra
- hantera
- hantera
- marknad
- Marknadsföring
- Marknadsföringsstrategier
- Maj..
- betyda
- betyder
- mäta
- mätning
- metod
- metoder
- kanske
- saknas
- MLOps
- modell
- modeller
- övervakas
- övervakning
- mer
- mest
- multipel
- Behöver
- Nya
- Nicolas
- Nej
- observera
- inträffade
- of
- on
- gång
- ONE
- nätet
- Online-lärande
- operativa
- Verksamhet
- Optimera
- or
- organisationer
- utfall
- skisse
- över
- Övervinna
- pandemi
- delta
- särskilt
- Tidigare
- prestanda
- periodisk
- Fenomenet
- rörledning
- plato
- Platon Data Intelligence
- PlatonData
- Populära
- befolkning
- potentiellt
- den mäktigaste
- praxis
- förutse
- förutsäga
- förutsägelse
- Förutsägelser
- Närvaron
- Priser
- process
- Produktion
- projektet
- egenskaper
- ge
- tillhandahålla
- mängd
- verkliga världen
- realtid
- skäl
- senaste
- hänvisar
- förhållande
- relation
- Förhållanden
- förblir
- representativ
- forskning
- forskaren
- respons
- resultera
- resulterande
- omskolning
- Körning
- s
- försäljning
- Samma
- Forskare
- säsong
- se
- väljer
- in
- skifta
- SKIFTANDE
- visas
- signifikant
- Enkelt
- eftersom
- långsam
- Långsamt
- Small
- So
- LÖSA
- några
- specifik
- Spektrum
- Stabilitet
- starta
- Stater
- statistisk
- lager
- okomplicerad
- strategier
- streaming
- ämne
- sådana
- plötslig
- SAMMANFATTNING
- system
- Målet
- uppgifter
- tekniker
- testa
- än
- den där
- Smakämnen
- deras
- Dem
- sedan
- Där.
- därför
- Dessa
- de
- Tredje
- detta
- tre
- tröskelvärde
- Frodas
- tid
- till
- verktyg
- Tåg
- tränad
- Utbildning
- transaktion
- utlösa
- Vrida
- två
- Typ
- typer
- typisk
- under
- underliggande
- förstå
- förståelse
- enhet
- Universell
- Uppdatering
- uppdaterad
- Uppströmsdata
- Begagnade
- Användare
- med hjälp av
- vanligen
- värde
- mycket
- syn
- Sätt..
- we
- när
- som
- bred
- kommer
- med
- arbetade
- arbetssätt
- fungerar
- år
- år
- zephyrnet