Modeli strojnega učenja so zmogljiva orodja, ki bi podjetjem lahko pomagala sprejemati bolj informirane odločitve in optimizirati svoje poslovanje. Ko pa so ti modeli uvedeni in delujejo v proizvodnji, so podvrženi pojavu, znanemu kot zamik modela.
Odmik modela se pojavi, ko se delovanje modela strojnega učenja sčasoma poslabša zaradi sprememb v osnovnih podatkih, kar povzroči netočne napovedi in potencialno pomembne posledice za podjetje. Za reševanje tega izziva se organizacije obračajo na MLOps, niz praks in orodij, ki pomagajo upravljati življenjski cikel proizvodnega strojnega učenja.
In this article, we’ll explore model drift, the different types of it, how to detect it, and most importantly, how to handle it in production using MLOps. By understanding and managing model drift, businesses can ensure that their machine learning models remain accurate and effective over time, delivering the insights and outcomes that they need to thrive.
Foto: Nicolas Peyrol on Unsplash
Odmik modela, znan tudi kot razpad modela, je pojav v strojnem učenju, pri katerem se zmogljivost modela sčasoma zmanjšuje. To pomeni, da bo model postopoma začel dajati slabe napovedi, kar bo sčasoma zmanjšalo natančnost.
Obstajajo različni razlogi za spremembo modela, kot so spremembe v zbiranju podatkov ali temeljni odnosi med spremenljivkami. Zato model ne bo uspel ujeti teh sprememb in zmogljivost se bo z naraščanjem sprememb zmanjšala.
Odkrivanje in obravnavanje odmika modela je ena bistvenih nalog, ki jih MLO rešuje. Tehnike, kot je spremljanje modela, se uporabljajo za odkrivanje prisotnosti zamika modela, prekvalificiranje modela pa je ena glavnih tehnik, ki se uporablja za premagovanje zamika modela.
Razumevanje vrste premika modela je bistvenega pomena za posodobitev modela na podlagi sprememb, do katerih je prišlo v podatkih. Obstajajo tri glavne vrste zanašanja:
Koncept Drift
Odmik koncepta se pojavi, ko se spremeni razmerje med tarčo in vhodom. Zato algoritem strojnega učenja ne bo zagotovil natančne napovedi. Obstajajo štiri glavne vrste odmika koncepta:
- Nenaden zanos: do nenadnega premika koncepta pride, če se razmerje med neodvisno in odvisno spremenljivko pojavi nenadoma. Zelo znan primer je nenaden pojav pandemije covida 19. Pojav pandemije je nenadoma spremenil razmerje med ciljno spremenljivko in značilnostmi na različnih področjih, tako da napovedni model, ki je usposobljen na vnaprej usposobljenih podatkih, ne bo mogel natančno napovedati v času pandemije.
- Postopno premikanje: In a gradual concept drift, the relation between the input and the target may change slowly and subtly. This can result in a slow decline in the performance of a machine learning model, as the model becomes less accurate over time. An example of the gradual concept drift is fraudulent behavior. Fraudsters tend to understand how the fraud detection system works and change their behavior over time to escape the system. Therefore a machine learning model trained on historical fraudulent transaction data will not accurately predict the gradual changes in the fraudster’s behavior. For example, consider a machine learning model used for predicting stock prices in which the model is trained on data from the past five years and its performance is evaluated on new data from the current year. However, as time goes by, the market dynamics may change, and the relationship between the variables that influence stock prices may evolve gradually. This can result in incremental drift, where the model’s accuracy gradually deteriorates over time as it becomes less effective at capturing the changing relationship between the variables.
- Postopno premikanje: Inkrementalni odmik se pojavi, ko se razmerje med ciljno spremenljivko in vhodom postopoma spreminja skozi čas, kar se običajno pojavi zaradi sprememb v procesu generiranja podatkov.
- Ponavljajoče se odnašanje: To je znano tudi kot sezonskost. Tipičen primer je povečanje prodaje med božičem ali črnim petkom. Model strojnega učenja, ki ne bo netočno upošteval teh sezonskih sprememb, bo na koncu zagotovil netočne napovedi za te sezonske spremembe.
Te štiri vrste zamika koncepta so prikazane na spodnji sliki.
Vrste odmika koncepta | Slika iz Učenje pod zamikom koncepta: pregled.
Odmik podatkov
Do odmika podatkov pride, ko se spremenijo statistične lastnosti vhodnih podatkov. Primer tega je sprememba starostne porazdelitve uporabnika določene aplikacije skozi čas, zato bo treba spremeniti model, naučen na določeni starostni porazdelitvi, ki se uporablja za marketinške strategije, saj bo sprememba starosti vplivala na tržne strategije.
Spremembe podatkov navzgor
Tretja vrsta odmika so spremembe podatkov navzgor. To se nanaša na spremembe operativnih podatkov v podatkovnem cevovodu. Tipičen primer tega je, ko določena funkcija ni več ustvarjena, kar povzroči manjkajočo vrednost. Drug primer je sprememba merske enote, če na primer določen senzor meri količino v Celziju in se nato spremeni v Fahrenheit.
Zaznavanje premika modela ni preprosto in ni univerzalne metode za njegovo odkrivanje. Vendar pa bomo razpravljali o nekaterih priljubljenih metodah za odkrivanje:
- Kolmogorov-Smirnov test (K-S test): Test K-S je neparametrični test za odkrivanje spremembe v porazdelitvi podatkov. Uporablja se za primerjavo podatkov o usposabljanju in podatkov po usposabljanju ter iskanje sprememb porazdelitve med njimi. Ničelna hipoteza za ta testni niz navaja, da je porazdelitev iz obeh naborov podatkov enaka, tako da bo v primeru zavrnitve ničelne hipoteze prišlo do premika modela.
- Indeks stabilnosti prebivalstva (PSI): PSI je statistična mera, ki se uporablja za merjenje podobnosti v porazdelitvi kategoričnih spremenljivk v dveh različnih nizih podatkov. Zato se lahko uporablja za merjenje sprememb v značilnostih kategoričnih spremenljivk v naboru podatkov o usposabljanju in po usposabljanju.
- Metoda Page-Hinkley: Page-Hinkely je tudi statistična metoda, ki se uporablja za opazovanje sprememb srednje vrednosti podatkov skozi čas. Običajno se uporablja za zaznavanje majhnih sprememb v povprečju, ki niso očitne, če pogledamo podatke.
- Spremljanje uspešnosti: Ena najpomembnejših metod za odkrivanje premika koncepta je spremljanje delovanja modela strojnega učenja v proizvodnji in opazovanje njegove spremembe; če preseže določen prag, lahko sprožimo določeno dejanje za popravek tega premika koncepta.
Ravnanje z zanašanjem v proizvodnji | Avtor slike ijeab na Freepiku.
Finally, let’s see how to handle the detected model drift in production. There is a wide spectrum of strategies used to handle the model drift depending on the type of drift, the data we are working on, and the project in production. Here is a summary of the popular methods that are used to handle model drift in production:
- Online učenje: Ker večina aplikacij v resničnem svetu deluje na podlagi pretočnih podatkov, je spletno učenje ena od pogostih metod, ki se uporabljajo za obvladovanje zanašanja. Pri spletnem učenju se model posodablja sproti, saj model obravnava en vzorec naenkrat.
- Občasno ponovno usposabljanje modela: Ko zmogljivost modela pade pod določen prag ali ko opazite premik podatkov, lahko nastavite sprožilec za ponovno usposabljanje modela z najnovejšimi podatki.
- Občasno ponovno trenirajte na reprezentativnem podvzorcu: Učinkovitejši način za obravnavanje zamika koncepta je izbira reprezentativnega podvzorca populacije in njihovo označevanje s pomočjo človeških strokovnjakov ter ponovno usposabljanje modela na njih.
- Opuščanje funkcije: To je preprosta, a učinkovita metoda, ki jo je mogoče uporabiti za obvladovanje zamika koncepta. S to metodo bomo učili več modelov, od katerih bo vsak uporabljal eno funkcijo, za vsak model pa se nato spremlja odziv AUC-ROC in če je vrednost AUC-ROC presegla določen prag z uporabo določene funkcije, jo lahko opustimo kot to lahko sodeluje pri driftanju.
Reference
V tem članku smo razpravljali o zamiku modela, ki je pojav v strojnem učenju, kjer se učinkovitost modela sčasoma poslabša zaradi sprememb osnovnih podatkov. Podjetja se obračajo na MLOps, nabor praks in orodij, ki upravljajo življenjski cikel modelov strojnega učenja v proizvodnji, da premagajo te izzive.
Opisali smo različne vrste odmika, ki se lahko pojavijo, vključno z odmikom koncepta, odmikom podatkov in spremembami podatkov navzgor, ter kako zaznati odmik modela z metodami, kot so Kolmogorov-Smirnov test, Indeks stabilnosti populacije in Page-Hinkleyeva metoda. Nazadnje smo razpravljali o priljubljenih tehnikah za obvladovanje premika modela v proizvodnji, vključno s spletnim učenjem, občasnim ponovnim usposabljanjem modela, občasnim ponovnim usposabljanjem na reprezentativnem podvzorcu in opuščanjem funkcij.
Youssef Rafaat je raziskovalec računalniškega vida in podatkovni znanstvenik. Njegove raziskave se osredotočajo na razvoj algoritmov računalniškega vida v realnem času za aplikacije v zdravstvu. Prav tako je več kot 3 leta delal kot podatkovni znanstvenik na področju marketinga, financ in zdravstva.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
- Kovanje prihodnosti z Adryenn Ashley. Dostopite tukaj.
- Kupujte in prodajajte delnice podjetij pred IPO s PREIPO®. Dostopite tukaj.
- vir: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops
- :ima
- : je
- :ne
- :kje
- $GOR
- a
- Sposobna
- Račun
- natančnost
- natančna
- natančno
- Ukrep
- Naslov
- naslavljanje
- vplivajo
- starost
- algoritem
- algoritmi
- Prav tako
- an
- in
- Še ena
- očitno
- uporaba
- aplikacije
- SE
- članek
- AS
- At
- Slab
- temeljijo
- BE
- postane
- spodaj
- med
- Poleg
- črna
- črni petek
- poslovni
- podjetja
- vendar
- by
- CAN
- Zajemanje
- wrestling
- Celzija
- nekatere
- izziv
- izzivi
- spremenite
- spremenilo
- Spremembe
- spreminjanje
- lastnosti
- Božič
- zbirka
- Skupno
- primerjate
- računalnik
- Računalniška vizija
- Koncept
- Posledice
- Razmislite
- popravi
- bi
- Covidien
- Trenutna
- datum
- podatkovni znanstvenik
- nabor podatkov
- ponudba
- odločitve
- Zavrni
- zmanjša
- dostavo
- odvisno
- Odvisno
- razporejeni
- Zaznali
- Odkrivanje
- razvoju
- drugačen
- razpravlja
- razpravljali
- distribucija
- domena
- Drop
- Spuščanje
- 2
- med
- dinamika
- vsak
- Učinkovito
- konec
- zagotovitev
- pobegniti
- bistvena
- Eter (ETH)
- ocenili
- razvijajo
- Primer
- Strokovnjaki
- raziskuje
- FAIL
- Falls
- slavni
- Feature
- Lastnosti
- Področja
- Slika
- končno
- financiranje
- Najdi
- Osredotoča
- za
- štiri
- goljufija
- odkrivanje goljufij
- goljufi
- goljufiva
- Petek
- iz
- ustvarila
- ustvarjajo
- Daj
- goes
- postopno
- postopoma
- ročaj
- Imajo
- he
- zdravstveno varstvo
- pomoč
- tukaj
- njegov
- zgodovinski
- Kako
- Kako
- Vendar
- HTTPS
- človeškega
- if
- slika
- Pomembno
- in
- netočne
- Vključno
- Povečajte
- Neodvisni
- Indeks
- vplivajo
- obvestila
- vhod
- vpogledi
- v
- IT
- ITS
- jpg
- KDnuggets
- znano
- označevanje
- vodi
- učenje
- manj
- življenski krog
- ll
- več
- si
- stroj
- strojno učenje
- Glavne
- Znamka
- upravljanje
- upravljanje
- Tržna
- Trženje
- Tržne strategije
- Maj ..
- pomeni
- pomeni
- merjenje
- Merjenje
- Metoda
- Metode
- morda
- manjka
- MLOps
- Model
- modeli
- spremljati
- spremljanje
- več
- Najbolj
- več
- Nimate
- Novo
- Nicolas
- št
- opazujejo
- zgodilo
- of
- on
- enkrat
- ONE
- na spletu
- Online učenje
- operativno
- operacije
- Optimizirajte
- or
- organizacije
- rezultatov
- opisano
- več
- Premagajte
- Pandemija
- sodelovanje
- zlasti
- preteklosti
- performance
- periodično
- pojav
- plinovod
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Popular
- prebivalstvo
- potencialno
- močan
- vaje
- napovedati
- napovedovanje
- napoved
- Napovedi
- Prisotnost
- Cene
- Postopek
- proizvodnja
- Projekt
- Lastnosti
- zagotavljajo
- zagotavljanje
- Količina
- resnični svet
- v realnem času
- Razlogi
- nedavno
- nanaša
- Razmerje
- Razmerje
- Razmerja
- ostajajo
- predstavnik
- Raziskave
- raziskovalec
- Odgovor
- povzroči
- rezultat
- preusposabljanje
- Run
- s
- prodaja
- Enako
- Znanstvenik
- sezonska
- glej
- izbiranje
- nastavite
- premik
- PREMIKANJE
- pokazale
- pomemben
- Enostavno
- saj
- počasi
- Počasi
- majhna
- So
- SOLVE
- nekaj
- specifična
- Spectrum
- Stabilnost
- Začetek
- Države
- Statistično
- zaloge
- naravnost
- strategije
- pretakanje
- predmet
- taka
- nenadoma
- POVZETEK
- sistem
- ciljna
- Naloge
- tehnike
- Test
- kot
- da
- O
- njihove
- Njih
- POTEM
- Tukaj.
- zato
- te
- jih
- tretja
- ta
- 3
- Prag
- Uspevajo
- čas
- do
- orodja
- Vlak
- usposobljeni
- usposabljanje
- transakcija
- sprožijo
- Obračalni
- dva
- tip
- Vrste
- tipičen
- pod
- osnovni
- razumeli
- razumevanje
- Enota
- Universal
- Nadgradnja
- posodobljeno
- Upstream podatki
- Rabljeni
- uporabnik
- uporabo
- navadno
- vrednost
- zelo
- Vizija
- način..
- we
- kdaj
- ki
- široka
- bo
- z
- delal
- deluje
- deluje
- leto
- let
- zefirnet