Data Drift vs. Concept Drift: Care este diferența?

Data Drift vs. Concept Drift: Care este diferența?

Nodul sursă: 1936845

Deriva modelului se referă la fenomenul care apare atunci când performanța unui model de învățare automată se degradează în timp. Acest lucru se întâmplă din diverse motive, inclusiv modificări ale distribuției datelor, modificări ale scopurilor sau obiectivelor modelului sau modificări ale mediului în care funcționează modelul. Sunt două principale tipuri de deriva de model care pot apărea: deriva de date și deriva de concept.

Deriva datelor se referă la distribuția schimbătoare a datelor la care se aplică modelul. Derivarea conceptului se referă la un scop sau obiectiv subiacent în schimbare pentru model. Atât deriva de date, cât și deriva de concept poate duce la o scădere a performanței unui masina de învățare model.

Derivarea modelului poate fi o problemă semnificativă pentru sistemele de învățare automată care sunt implementate în setările din lumea reală, deoarece poate duce la predicții sau decizii inexacte sau nesigure. Pentru a aborda deviația modelului, este important să monitorizați în mod constant performanța modelelor de învățare automată în timp și să luați măsuri pentru a o preveni sau atenua, cum ar fi reantrenarea modelului pe date noi sau ajustarea parametrilor modelului. Aceste sisteme de monitorizare și reglare trebuie să facă parte integrantă din a sistem de implementare software pentru modelele ML.

Deriva conceptului vs. Deriva datelor: Care este diferența?

Deriva datelor

Deriva datelor, sau schimbarea covariabilă, se referă la fenomenul în care distribuția datelor intrărilor pe care o Modelul ML pe care a fost instruit diferă de distribuția datelor intrărilor la care se aplică modelul. Acest lucru poate duce la ca modelul să devină mai puțin exact sau eficient în a face predicții sau decizii.

O reprezentare matematică a derivării datelor poate fi exprimată după cum urmează:

P(x|y) ≠ P(x|y')

Unde P(x|y) se referă la distribuția de probabilitate a datelor de intrare (x) având în vedere datele de ieșire (y), iar P(x|y') este distribuția de probabilitate a datelor de intrare având în vedere datele de ieșire pentru noile date către pe care se aplică modelul (y’).

De exemplu, să presupunem că un model ML a fost antrenat pe un set de date de date despre clienți dintr-un anumit magazin de vânzare cu amănuntul și modelul a fost utilizat pentru a prezice dacă un client va face o achiziție pe baza vârstei, venitului și locației sale. 

Dacă distribuția datelor de intrare (vârstă, venit și locație) pentru noile date introduse în model diferă semnificativ de distribuția datelor de intrare în setul de date de antrenament, acest lucru ar putea duce la deriva de date și ar putea duce la o precizie mai mică a modelului.

Depășirea derivării datelor

O modalitate de a depăși deriva de date este utilizarea unor tehnici precum ponderarea sau eșantionarea pentru a ajusta diferențele în distribuțiile datelor. De exemplu, puteți pondere exemplele din setul de date de antrenament pentru a se potrivi mai strâns cu distribuția datelor de intrare pentru noile date cărora li se va aplica modelul. 

Alternativ, puteți eșantiona din noile date și din datele de antrenament pentru a crea un set de date echilibrat pentru antrenamentul modelului. O altă abordare este utilizarea tehnicilor de adaptare a domeniului, care urmăresc adaptarea modelului la noua distribuție a datelor prin învățarea unei mapări între domeniul sursă (datele de antrenament) și domeniul țintă (noile date). O modalitate de a realiza acest lucru este utilizarea generarea de date sintetice algoritmi.

Concept Drift

Derivarea conceptului apare atunci când există o schimbare în relația funcțională dintre datele de intrare și de ieșire ale unui model. Modelul continuă să funcționeze la fel, în ciuda contextului schimbat, neștiind schimbările. Astfel, modelele pe care le-a învățat în timpul antrenamentului nu mai sunt exacte.

Derivarea conceptului este uneori numită și deriva de clasă sau schimbarea probabilității posterioare. Acest lucru se datorează faptului că se referă la modificările probabilităților între diferite situații:

Pt1 (Y|X) ≠ Pt2 (Y|X)

Acest tip de derive este cauzat de procese sau evenimente externe. De exemplu, este posibil să aveți un model care prezice costul vieții pe baza locației geografice, cu diferite regiuni ca intrare. Cu toate acestea, nivelul de dezvoltare al fiecărei regiuni poate crește sau scădea, modificând costul vieții în lumea reală. Astfel, modelul își pierde capacitatea de a face predicții precise. 

Sensul inițial al „derivei conceptului” este o schimbare în modul în care înțelegem etichetele specifice. Un exemplu este ceea ce etichetăm drept „spam” în e-mailuri. Tipare precum e-mailurile frecvente, în masă, erau considerate cândva semne de spam, dar asta nu este întotdeauna cazul astăzi. Detectoarele de spam care încă folosesc aceste atribute învechite vor fi mai puțin eficienți atunci când identifică spam-ul, deoarece au o deviere a conceptului și necesită reinstruire.

Iată mai multe exemple de deriva de concept:

  • Impactul modificărilor la codul fiscal asupra unui model care prezice conformitatea fiscală
  • Impactul evoluției comportamentului clienților asupra unui model care prezice vânzările de produse
  • Impactul unei crize financiare asupra previziunilor profiturilor unei companii

Derivarea conceptului vs. Derivea datelor

Odată cu deriva de date, limita de decizie nu se schimbă; se modifică doar distribuția de probabilitate a intrărilor – P(x). Odată cu deriva conceptului, granița de decizie se schimbă, atât distribuția de intrare cât și de ieșire schimbându-se – P(x) și P(y). 

O altă diferență importantă este că deriva de date este în principal rezultatul unor factori interni, cum ar fi colectarea datelor, procesarea și instruirea. Derivarea conceptului rezultă de obicei din factori externi, cum ar fi situația din lumea reală.

Strategii pentru a detecta și a depăși datele și deviația conceptului

Există mai multe strategii care pot ajuta la detectarea și depășirea derivei modelului într-un sistem de învățare automată:

  • Monitorizarea performantei: Evaluarea regulată a performanței modelului ML pe un set de date reținut sau în producție poate ajuta la identificarea oricărei scăderi a preciziei sau a altor valori care ar putea indica deviația modelului.
  • Algoritmi de detectare a deriva de date și concept: Există algoritmi special concepuți pentru detectarea derivei de date, cum ar fi testul Page-Hinkley sau testul Kolmogorov-Smirnov, precum și algoritmi care detectează deriva de concept, cum ar fi algoritmul ADWIN. Acești algoritmi pot identifica automat modificări ale datelor sau sarcinii de intrare care pot indica deviația modelului.
  • Tehnici de prevenire a derivei de date și concept: Aceste tehnici pot ajuta la prevenirea derive a datelor sau a conceptului în primul rând. De exemplu, utilizarea creșterii datelor sau a generării de date sintetice poate ajuta la asigurarea faptului că un model ML are expunere la o gamă largă și reprezentativă de date, ceea ce îl poate face mai rezistent la schimbările în distribuția datelor. În mod similar, utilizarea învățării prin transfer sau a învățării multitask poate ajuta modelul să se adapteze la o sarcină sau obiectiv în schimbare.
  • Recalificare și reglare fină: Dacă este detectată deviația modelului, reantrenarea sau reglarea fină a modelului pe date noi poate ajuta la depășirea acesteia. Acest lucru se poate face periodic sau ca răspuns la modificări semnificative ale datelor sau sarcinii.

Prin monitorizarea regulată a derivei modelului și luarea de măsuri proactive pentru a preveni sau atenua aceasta, este posibil să se mențină acuratețea și fiabilitatea modelelor de învățare automată în timp.

Concluzie

În concluzie, deriva de date și deriva de model sunt două fenomene importante care pot afecta performanța modelelor de învățare automată (ML). 

Derivarea datelor, cunoscută și sub denumirea de schimbare covariabilă, apare atunci când distribuția datelor de intrare pe care a fost antrenat un model ML diferă de distribuția datelor de intrare la care este aplicat modelul. Deriva de model, cunoscută și sub denumirea de deriva de concept, apare atunci când proprietățile statistice ale datelor pe care a fost antrenat un model ML se modifică în timp. 

Atât deriva de date, cât și cea de model pot duce la ca modelul să devină mai puțin precis sau eficient în luarea de predicții sau decizii și este important să înțelegem și să abordam aceste fenomene pentru a menține performanța unui model ML în timp. 

Există diverse tehnici care pot fi utilizate pentru a depăși deviația datelor și a deviației modelului, inclusiv reinstruirea modelului pe date actualizate, utilizarea învățării online sau a învățării adaptive și monitorizarea performanței modelului în timp.

Timestamp-ul:

Mai mult de la VERSITATE DE DATE