Deriva dei dati e deriva dei concetti: qual è la differenza?

Deriva dei dati e deriva dei concetti: qual è la differenza?

Nodo di origine: 1936845

La deriva del modello si riferisce al fenomeno che si verifica quando le prestazioni di un modello di machine learning peggiorano nel tempo. Ciò accade per vari motivi, tra cui modifiche alla distribuzione dei dati, modifiche agli scopi o agli obiettivi del modello o modifiche all'ambiente in cui opera il modello. Ci sono due principali tipi di deriva del modello che possono verificarsi: deriva dei dati e deriva dei concetti.

La deriva dei dati si riferisce alla distribuzione mutevole dei dati a cui viene applicato il modello. La deriva del concetto si riferisce a un obiettivo o obiettivo sottostante mutevole per il modello. Sia la deriva dei dati che la deriva dei concetti possono portare a un calo delle prestazioni di a machine learning modello.

La deriva del modello può rappresentare un problema significativo per i sistemi di apprendimento automatico distribuiti in contesti reali, in quanto può portare a previsioni o decisioni imprecise o inaffidabili. Per affrontare la deriva del modello, è importante monitorare costantemente le prestazioni dei modelli di machine learning nel tempo e adottare misure per prevenirla o mitigarla, ad esempio riaddestrando il modello su nuovi dati o regolando i parametri del modello. Tali sistemi di monitoraggio e regolazione devono essere parte integrante di a sistema di distribuzione del software per i modelli ML.

Deriva dei concetti e deriva dei dati: qual è la differenza?

Deriva dei dati

La deriva dei dati, o spostamento della covariata, si riferisce al fenomeno in cui la distribuzione degli input di dati che an Modello ML è stato addestrato differisce dalla distribuzione degli input di dati a cui è applicato il modello. Ciò può comportare che il modello diventi meno accurato o efficace nel fare previsioni o decisioni.

Una rappresentazione matematica della deriva dei dati può essere espressa come segue:

P(x|y) ≠ P(x|y')

Dove P(x|y) si riferisce alla distribuzione di probabilità dei dati di input (x) dati i dati di output (y), e P(x|y') è la distribuzione di probabilità dei dati di input dati i dati di output per i nuovi dati da cui si applica il modello (y').

Ad esempio, supponiamo che un modello ML sia stato addestrato su un set di dati dei clienti di un particolare negozio al dettaglio e che il modello sia stato utilizzato per prevedere se un cliente effettuerebbe un acquisto in base alla sua età, reddito e posizione. 

Se la distribuzione dei dati di input (età, reddito e posizione) per i nuovi dati immessi nel modello differisce in modo significativo dalla distribuzione dei dati di input nel set di dati di addestramento, ciò potrebbe causare una deriva dei dati e rendere il modello meno accurato.

Superare la deriva dei dati

Un modo per superare la deriva dei dati consiste nell'utilizzare tecniche come la ponderazione o il campionamento per adeguarsi alle differenze nelle distribuzioni dei dati. Ad esempio, potresti ponderare gli esempi nel set di dati di addestramento in modo che corrispondano maggiormente alla distribuzione dei dati di input per i nuovi dati a cui verrà applicato il modello. 

In alternativa, è possibile campionare dai nuovi dati e dai dati di addestramento per creare un set di dati bilanciato per l'addestramento del modello. Un altro approccio consiste nell'utilizzare tecniche di adattamento del dominio, che mirano ad adattare il modello alla nuova distribuzione dei dati imparando una mappatura tra il dominio di origine (i dati di addestramento) e il dominio di destinazione (i nuovi dati). Un modo per raggiungere questo obiettivo è utilizzare generazione di dati sintetici algoritmi.

Deriva del concetto

La deriva del concetto si verifica quando si verifica un cambiamento nella relazione funzionale tra i dati di input e di output di un modello. Il modello continua a funzionare allo stesso modo nonostante il mutato contesto, ignaro dei cambiamenti. Pertanto, i modelli che ha appreso durante l'allenamento non sono più accurati.

La deriva del concetto è talvolta chiamata anche deriva della classe o spostamento di probabilità a posteriori. Questo perché si riferisce ai cambiamenti nelle probabilità tra diverse situazioni:

Pt1 (Y|X) ≠ Pt2 (Y|X)

Questo tipo di deriva è causato da processi o eventi esterni. Ad esempio, potresti avere un modello che prevede il costo della vita in base alla posizione geografica, con diverse regioni come input. Tuttavia, il livello di sviluppo di ciascuna regione può aumentare o diminuire, modificando il costo della vita nel mondo reale. Pertanto, il modello perde la capacità di fare previsioni accurate. 

Il significato originale di "concept drift" è un cambiamento nel modo in cui comprendiamo etichette specifiche. Un esempio è ciò che etichettiamo come "spam" nelle e-mail. Schemi come e-mail frequenti e di massa un tempo erano considerati segni di spam, ma oggi non è sempre così. I rilevatori di spam che utilizzano ancora questi attributi obsoleti saranno meno efficaci nell'identificare lo spam perché hanno deviazioni concettuali e richiedono una riqualificazione.

Ecco altri esempi di deriva concettuale:

  • L'impatto delle modifiche al codice fiscale su un modello che prevede la conformità fiscale
  • L'impatto dell'evoluzione del comportamento dei clienti su un modello che prevede le vendite dei prodotti
  • L'impatto di una crisi finanziaria sulle previsioni dei profitti di un'azienda

Deriva del concetto vs. Deriva dei dati

Con la deriva dei dati, il limite decisionale non cambia; cambia solo la distribuzione di probabilità degli input – P(x). Con la deriva del concetto, il confine decisionale cambia, con la variazione sia della distribuzione di input che di output - P(x) e P(y). 

Un'altra differenza importante è che la deriva dei dati è principalmente il risultato di fattori interni, come la raccolta, l'elaborazione e l'addestramento dei dati. La deriva del concetto in genere deriva da fattori esterni, come la situazione nel mondo reale.

Strategie per rilevare e superare la deriva di dati e concetti

Esistono diverse strategie che possono aiutare a rilevare e superare la deriva del modello in un sistema di apprendimento automatico:

  • Monitoraggio delle prestazioni: Valutare regolarmente le prestazioni del modello ML su un set di dati di controllo o in produzione può aiutare a identificare eventuali riduzioni dell'accuratezza o altre metriche che potrebbero indicare una deriva del modello.
  • Algoritmi di rilevamento della deriva di dati e concetti: Esistono algoritmi specificamente progettati per rilevare la deriva dei dati, come il test di Page-Hinkley o il test di Kolmogorov-Smirnov, nonché algoritmi che rilevano la deriva dei concetti, come l'algoritmo ADWIN. Questi algoritmi possono identificare automaticamente le modifiche nei dati di input o nell'attività che possono indicare la deriva del modello.
  • Tecniche di prevenzione della deriva di dati e concetti: Queste tecniche possono aiutare a prevenire in primo luogo la deriva dei dati o dei concetti. Ad esempio, l'utilizzo dell'aumento dei dati o della generazione di dati sintetici può aiutare a garantire che un modello ML sia esposto a un'ampia gamma rappresentativa di dati, il che può renderlo più resiliente ai cambiamenti nella distribuzione dei dati. Allo stesso modo, l'utilizzo del transfer learning o dell'apprendimento multitasking può aiutare il modello ad adattarsi a un compito o obiettivo in evoluzione.
  • Riqualificazione e messa a punto: Se viene rilevata una deriva del modello, la riqualificazione o la messa a punto del modello su nuovi dati può aiutare a superarla. Questo può essere fatto periodicamente o in risposta a cambiamenti significativi nei dati o nell'attività.

Monitorando regolarmente la deriva del modello e adottando misure proattive per prevenirla o mitigarla, è possibile mantenere l'accuratezza e l'affidabilità dei modelli di machine learning nel tempo.

Conclusione

In conclusione, la deriva dei dati e la deriva dei modelli sono due fenomeni importanti che possono influenzare le prestazioni dei modelli di machine learning (ML). 

La deriva dei dati, nota anche come spostamento della covariata, si verifica quando la distribuzione dei dati di input su cui è stato addestrato un modello ML differisce dalla distribuzione dei dati di input a cui è applicato il modello. La deriva del modello, nota anche come deriva del concetto, si verifica quando le proprietà statistiche dei dati su cui è stato addestrato un modello ML cambiano nel tempo. 

Sia la deriva dei dati che la deriva del modello possono far sì che il modello diventi meno accurato o efficace nel fare previsioni o decisioni ed è importante comprendere e affrontare questi fenomeni per mantenere le prestazioni di un modello ML nel tempo. 

Esistono varie tecniche che possono essere utilizzate per superare la deriva dei dati e la deriva del modello, tra cui il riaddestramento del modello su dati aggiornati, l'utilizzo dell'apprendimento online o dell'apprendimento adattivo e il monitoraggio delle prestazioni del modello nel tempo.

Timestamp:

Di più da VERSITÀ DEI DATI