Modelele de învățare automată sunt instrumente puternice care ar putea ajuta companiile să ia decizii mai informate și să își optimizeze operațiunile. Cu toate acestea, pe măsură ce aceste modele sunt implementate și rulate în producție, ele sunt supuse unui fenomen cunoscut sub numele de deriva de model.
Derivarea modelului are loc atunci când performanța unui model de învățare automată se degradează în timp din cauza modificărilor datelor subiacente, ceea ce duce la predicții inexacte și la consecințe potențial semnificative pentru o afacere. Pentru a face față acestei provocări, organizațiile apelează la MLOps, un set de practici și instrumente care ajută la gestionarea ciclului de viață al învățării automate de producție.
În acest articol, vom explora deviația modelului, diferitele tipuri ale acestuia, cum să o detectăm și, cel mai important, cum să o gestionăm în producție folosind MLOps. Înțelegând și gestionând deviația modelelor, companiile se pot asigura că modelele lor de învățare automată rămân exacte și eficiente în timp, oferind perspectivele și rezultatele de care au nevoie pentru a prospera.
Fotografie de Nicolas Peyrol on Unsplash
Derivarea modelului, cunoscută și sub denumirea de decădere a modelului, este un fenomen în învățarea automată în care performanța modelului scade în timp. Aceasta înseamnă că modelul va începe treptat să dea predicții proaste care vor scădea acuratețea în timp.
Există diferite motive pentru schimbarea modelului, cum ar fi schimbările în colectarea datelor sau relațiile de bază dintre variabile. Prin urmare, modelul nu va reuși să surprindă aceste modificări și performanța va scădea pe măsură ce modificările cresc.
Detectarea și abordarea derivei modelului este una dintre sarcinile esențiale pe care le rezolvă MLOps. Tehnici precum monitorizarea modelului sunt folosite pentru a detecta prezența derivei modelului, iar recalificarea modelului este una dintre principalele tehnici utilizate pentru a depăși deviația modelului.
Înțelegerea tipului de derive a modelului este esențială pentru a actualiza modelul pe baza modificărilor care au avut loc în date. Există trei tipuri principale de deriva:
Concept Drift
Derivarea conceptului apare atunci când relația dintre țintă și intrare se modifică. Prin urmare, algoritmul de învățare automată nu va oferi o predicție precisă. Există patru tipuri principale de deriva de concept:
- Deriva bruscă: O deviere bruscă a conceptului are loc dacă relația dintre variabilele independente și dependente apare brusc. Un exemplu foarte faimos este apariția bruscă a pandemiei covid 19. Apariția pandemiei a schimbat brusc relația dintre variabila țintă și caracteristicile din diferite domenii, astfel încât un model predictiv antrenat pe date pre-antrenate nu va putea prezice cu exactitate în timpul pandemiei.
- Deriva graduală: Într-o derivă graduală a conceptului, relația dintre intrare și țintă se poate schimba lent și subtil. Acest lucru poate duce la o scădere lentă a performanței unui model de învățare automată, deoarece modelul devine mai puțin precis în timp. Un exemplu de deriva graduală a conceptului este comportamentul fraudulos. Escrocii tind să înțeleagă cum funcționează sistemul de detectare a fraudei și să își schimbe comportamentul în timp pentru a scăpa de sistem. Prin urmare, un model de învățare automată instruit pe datele istorice ale tranzacțiilor frauduloase nu va prezice cu exactitate schimbările treptate ale comportamentului fraudatorului. De exemplu, luați în considerare un model de învățare automată utilizat pentru prezicerea prețurilor acțiunilor în care modelul este antrenat pe date din ultimii cinci ani și performanța sa este evaluată pe baza datelor noi din anul curent. Cu toate acestea, odată cu trecerea timpului, dinamica pieței se poate schimba, iar relația dintre variabilele care influențează prețurile acțiunilor poate evolua treptat. Acest lucru poate duce la o deviere incrementală, în care acuratețea modelului se deteriorează treptat în timp, pe măsură ce devine mai puțin eficientă în capturarea relației în schimbare dintre variabile.
- Deriva incrementală: Deviația incrementală apare atunci când relația dintre variabila țintă și intrarea se modifică treptat în timp, ceea ce are loc de obicei din cauza modificărilor procesului de generare a datelor.
- Deriva recurentă: Acest lucru este cunoscut și sub numele de sezonalitate. Un exemplu tipic este creșterea vânzărilor în perioada Crăciunului sau Black Friday. Un model de învățare automată care nu va ține cont de aceste schimbări sezoniere va ajunge să ofere predicții inexacte pentru aceste schimbări sezoniere.
Aceste patru tipuri de derive a conceptului sunt prezentate în figura de mai jos.
Tipuri de deriva conceptului | Imagine de la Învățare sub Concept Drift: O revizuire.
Deriva datelor
Derivarea datelor are loc atunci când proprietățile statistice ale datelor de intrare se modifică. Un exemplu în acest sens este schimbarea în timp a distribuției de vârstă a utilizatorului unei anumite aplicații, prin urmare un model instruit pe o anumită distribuție a vârstei care este utilizat pentru strategiile de marketing va trebui modificat deoarece schimbarea vârstei va afecta strategii de marketing.
Modificări ale datelor din amonte
Al treilea tip de deriva este modificarea datelor din amonte. Aceasta se referă la modificările de date operaționale în conducta de date. Un exemplu tipic în acest sens este atunci când o caracteristică specifică nu mai este generată, rezultând o valoare lipsă. Un alt exemplu este o schimbare a unității de măsură, de exemplu dacă un anumit senzor măsoară cantitatea în Celsius și apoi se schimbă în Fahrenheit.
Detectarea derivei modelului nu este simplă și nu există o metodă universală pentru a o detecta. Cu toate acestea, vom discuta câteva dintre metodele populare pentru a-l detecta:
- Testul Kolmogorov-Smirnov (testul KS): Testul KS este un test neparametric pentru a detecta modificarea distribuției datelor. Este folosit pentru a compara datele de antrenament și datele post-antrenament și pentru a găsi modificările de distribuție între ele. Ipoteza nulă pentru acest set de test afirmă că distribuția din cele două seturi de date este aceeași, așa că dacă ipoteza nulă este respinsă, deci va exista o schimbare de model.
- Indicele de stabilitate a populației (PSI): PSI este o măsură statistică care este utilizată pentru a măsura similaritatea în distribuția variabilelor categoriale în două seturi de date diferite. Prin urmare, poate fi utilizat pentru a măsura schimbările în caracteristicile variabilelor categoriale din setul de date de antrenament și post-antrenament.
- Metoda Page-Hinkley: Page-Hinkely este, de asemenea, o metodă statistică care este folosită pentru a observa schimbările în media datelor de-a lungul timpului. De obicei, este folosit pentru a detecta micile modificări ale mediei care nu sunt evidente atunci când se analizează datele.
- Monitorizarea performantei: Una dintre cele mai importante metode de a detecta schimbarea conceptului este monitorizarea performanței modelului de învățare automată în producție și observarea schimbării acestuia, iar dacă acesta depășește un anumit prag putem declanșa o anumită acțiune pentru a corecta această schimbare de concept.
Gestionarea derivei în producție | Imagine de ijeab pe Freepik.
În cele din urmă, să vedem cum să gestionăm deviația de model detectată în producție. Există un spectru larg de strategii utilizate pentru a gestiona deviația modelului, în funcție de tipul de derivă, de datele la care lucrăm și de proiectul în producție. Iată un rezumat al metodelor populare care sunt utilizate pentru a gestiona deviația modelului în producție:
- Învățarea online: Deoarece majoritatea aplicațiilor din lumea reală rulează pe date în flux, învățarea online este una dintre metodele comune care sunt folosite pentru a gestiona deriva. În învățarea online, modelul este actualizat din mers, deoarece modelul se ocupă de o probă la un moment dat.
- Reantrenați periodic modelul: Odată ce performanța modelului scade sub un anumit prag sau se observă o schimbare a datelor, poate fi setat un declanșator pentru reantrenarea modelului cu date recente.
- Reantrenați periodic pe o subprobă reprezentativă: O modalitate mai eficientă de a gestiona deriva de concept este prin selectarea unui subeșantion reprezentativ al populației și etichetarea acestora folosind experți umani și recalificarea modelului pe ele.
- Eliminarea caracteristicilor: Aceasta este o metodă simplă, dar eficientă, care poate fi folosită pentru a gestiona deriva conceptului. Folosind această metodă, vom antrena mai multe modele, fiecare folosind o caracteristică și pentru fiecare model, răspunsul AUC-ROC este apoi monitorizat, iar dacă valoarea AUC-ROC a depășit un anumit prag folosind o anumită caracteristică, atunci o putem renunța ca acest lucru ar putea participa la drifting.
Referinte
În acest articol, am discutat despre deriva modelului, care este fenomenul în învățarea automată în care performanța unui model se deteriorează în timp din cauza modificărilor datelor de bază. Companiile apelează la MLOps, un set de practici și instrumente care gestionează ciclul de viață al modelelor de învățare automată în producție, pentru a depăși aceste provocări.
Am subliniat diferitele tipuri de derive care pot apărea, inclusiv deviația conceptului, deriva de date și modificările de date din amonte și modul de detectare a derivei modelului folosind metode precum testul Kolmogorov-Smirnov, Indicele de stabilitate a populației și metoda Page-Hinkley. În cele din urmă, am discutat despre tehnicile populare pentru a gestiona deviația modelului în producție, inclusiv învățarea online, reinstruirea periodică a modelului, reantrenarea periodică pe un subeșantion reprezentativ și eliminarea caracteristicilor.
Youssef Rafaat este cercetător în viziune computerizată și om de știință a datelor. Cercetările sale se concentrează pe dezvoltarea algoritmilor de viziune computerizată în timp real pentru aplicații de asistență medicală. De asemenea, a lucrat ca data scientist timp de mai bine de 3 ani în domeniul marketing, finanțe și asistență medicală.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoAiStream. Web3 Data Intelligence. Cunoștințe amplificate. Accesați Aici.
- Mintând viitorul cu Adryenn Ashley. Accesați Aici.
- Cumpărați și vindeți acțiuni în companii PRE-IPO cu PREIPO®. Accesați Aici.
- Sursa: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops
- :are
- :este
- :nu
- :Unde
- $UP
- a
- Capabil
- Cont
- precizie
- precis
- precis
- Acțiune
- adresa
- adresare
- afecta
- vârstă
- Algoritmul
- algoritmi
- de asemenea
- an
- și
- O alta
- aparent
- aplicație
- aplicatii
- SUNT
- articol
- AS
- At
- Rău
- bazat
- BE
- devine
- de mai jos
- între
- Dincolo de
- Negru
- Black Friday
- afaceri
- întreprinderi
- dar
- by
- CAN
- capturarea
- Captură
- Celsius
- sigur
- contesta
- provocări
- Schimbare
- si-a schimbat hainele;
- Modificări
- schimbarea
- Caracteristici
- Crăciunul
- colectare
- Comun
- comparaţie
- calculator
- Computer Vision
- concept
- Consecințele
- Lua în considerare
- corecta
- ar putea
- Covidien
- Curent
- de date
- om de știință de date
- seturi de date
- afacere
- Deciziile
- Refuzați
- scădea
- livrarea
- Dependent/ă
- În funcție
- dislocate
- detectat
- Detectare
- în curs de dezvoltare
- diferit
- discuta
- discutat
- distribuire
- domeniu
- Picătură
- scăparea
- două
- în timpul
- dinamică
- fiecare
- Eficace
- capăt
- asigura
- scăpa
- esenţial
- Eter (ETH)
- evaluat
- evolua
- exemplu
- experți
- explora
- FAIL
- Falls
- celebru
- Caracteristică
- DESCRIERE
- Domenii
- Figura
- În cele din urmă
- finanţa
- Găsi
- se concentrează
- Pentru
- patru
- fraudă
- detectarea fraudei
- evazioniștilor
- necinstit
- Vineri
- din
- generată
- generator
- Da
- Merge
- treptat
- treptat
- manipula
- Avea
- he
- de asistență medicală
- ajutor
- aici
- lui
- istoric
- Cum
- Cum Pentru a
- Totuși
- HTTPS
- uman
- if
- imagine
- important
- in
- inexact
- Inclusiv
- Crește
- independent
- index
- influență
- informat
- intrare
- perspective
- în
- IT
- ESTE
- jpg
- KDnuggets
- cunoscut
- etichetarea
- conducere
- învăţare
- mai puțin
- ciclu de viață
- ll
- mai lung
- cautati
- maşină
- masina de învățare
- Principal
- face
- administra
- de conducere
- Piață
- Marketing
- Strategii de marketing
- Mai..
- însemna
- mijloace
- măsura
- măsurare
- metodă
- Metode
- ar putea
- dispărut
- MLOps
- model
- Modele
- monitorizate
- Monitorizarea
- mai mult
- cele mai multe
- multiplu
- Nevoie
- Nou
- Nicolas
- Nu.
- observa
- a avut loc
- of
- on
- dată
- ONE
- on-line
- Învățarea online
- operațional
- Operațiuni
- Optimizați
- or
- organizații
- rezultate
- a subliniat
- peste
- Învinge
- pandemie
- participa
- special
- trecut
- performanță
- periodic
- fenomen
- conducte
- Plato
- Informații despre date Platon
- PlatoData
- Popular
- populație
- potenţial
- puternic
- practicile
- prezice
- estimarea
- prezicere
- Predictii
- prezenţă
- Prețuri
- proces
- producere
- proiect
- proprietăţi
- furniza
- furnizarea
- cantitate
- lumea reală
- în timp real
- motive
- recent
- se referă
- relație
- relaţie
- Relaţii
- rămâne
- reprezentant
- cercetare
- cercetător
- răspuns
- rezultat
- rezultând
- reconversie profesională
- Alerga
- s
- de vânzări
- acelaşi
- Om de stiinta
- sezonier
- vedea
- selectarea
- set
- schimbare
- SCHIMBARE
- indicat
- semnificativ
- simplu
- întrucât
- încetini
- Încet
- mic
- So
- REZOLVAREA
- unele
- specific
- Spectru
- Stabilitate
- Începe
- Statele
- statistic
- stoc
- simplu
- strategii
- de streaming
- subiect
- astfel de
- brusc
- REZUMAT
- sistem
- Ţintă
- sarcini
- tehnici de
- test
- decât
- acea
- lor
- Lor
- apoi
- Acolo.
- prin urmare
- Acestea
- ei
- Al treilea
- acest
- trei
- prag
- Prospera
- timp
- la
- Unelte
- Tren
- dresat
- Pregătire
- tranzacție
- declanşa
- Cotitură
- Două
- tip
- Tipuri
- tipic
- în
- care stau la baza
- înţelege
- înţelegere
- unitate
- Universal
- Actualizează
- actualizat
- Date din amonte
- utilizat
- Utilizator
- folosind
- obișnuit
- valoare
- foarte
- viziune
- Cale..
- we
- cand
- care
- larg
- voi
- cu
- a lucrat
- de lucru
- fabrică
- an
- ani
- zephyrnet