Gestione della deriva del modello in produzione con MLOps

Ripubblicato da Platone

Seguaci: 0

I modelli di machine learning sono strumenti potenti che potrebbero aiutare le aziende a prendere decisioni più informate e a ottimizzare le proprie operazioni. Tuttavia, quando questi modelli vengono implementati e messi in produzione, sono soggetti a un fenomeno noto come deriva del modello.

La deriva del modello si verifica quando le prestazioni di un modello di machine learning si riducono nel tempo a causa di cambiamenti nei dati sottostanti, portando a previsioni imprecise e conseguenze potenzialmente significative per un'azienda. Per affrontare questa sfida, le organizzazioni si rivolgono a MLOps, un insieme di pratiche e strumenti che aiutano a gestire il ciclo di vita del machine learning di produzione.

In this article, we’ll explore model drift, the different types of it, how to detect it, and most importantly, how to handle it in production using MLOps. By understanding and managing model drift, businesses can ensure that their machine learning models remain accurate and effective over time, delivering the insights and outcomes that they need to thrive.

Gestione della deriva del modello in produzione con MLOps
Foto di Nicolas Peyrol on Unsplash

La deriva del modello, nota anche come decadimento del modello, è un fenomeno dell'apprendimento automatico in cui le prestazioni del modello diminuiscono nel tempo. Ciò significa che il modello inizierà gradualmente a fornire previsioni errate che ne diminuiranno la precisione nel tempo.

Esistono diverse ragioni per lo spostamento del modello, come i cambiamenti nella raccolta dei dati o le relazioni sottostanti tra le variabili. Pertanto il modello non riuscirà a cogliere questi cambiamenti e le prestazioni diminuiranno all'aumentare dei cambiamenti.

Rilevare e affrontare la deriva del modello è uno dei compiti essenziali risolti da MLOps. Tecniche come il monitoraggio del modello vengono utilizzate per rilevare la presenza di deriva del modello e la riqualificazione del modello è una delle principali tecniche utilizzate per superare la deriva del modello.

Comprendere il tipo di deriva del modello è essenziale per aggiornare il modello in base ai cambiamenti avvenuti nei dati. Esistono tre tipi principali di deriva:

Deriva del concetto

La deriva del concetto si verifica quando cambia la relazione tra l’obiettivo e l’input. Pertanto l'algoritmo di apprendimento automatico non fornirà una previsione accurata. Esistono quattro tipi principali di deriva del concetto:

Deriva improvvisa: Si verifica una deriva improvvisa del concetto se la relazione tra le variabili indipendenti e dipendenti si verifica all'improvviso. Un esempio molto famoso è il verificarsi improvviso della pandemia da covid 19. Il verificarsi della pandemia ha improvvisamente cambiato la relazione tra la variabile target e le caratteristiche in diversi campi, quindi un modello predittivo addestrato su dati pre-addestrati non sarà in grado di prevedere in modo accurato durante il periodo della pandemia.
Deriva graduale: In a gradual concept drift, the relation between the input and the target may change slowly and subtly. This can result in a slow decline in the performance of a machine learning model, as the model becomes less accurate over time. An example of the gradual concept drift is fraudulent behavior. Fraudsters tend to understand how the fraud detection system works and change their behavior over time to escape the system. Therefore a machine learning model trained on historical fraudulent transaction data will not accurately predict the gradual changes in the fraudster’s behavior. For example, consider a machine learning model used for predicting stock prices in which the model is trained on data from the past five years and its performance is evaluated on new data from the current year. However, as time goes by, the market dynamics may change, and the relationship between the variables that influence stock prices may evolve gradually. This can result in incremental drift, where the model’s accuracy gradually deteriorates over time as it becomes less effective at capturing the changing relationship between the variables.
Deriva incrementale: La deriva incrementale si verifica quando la relazione tra la variabile target e l'input cambia gradualmente nel tempo, il che avviene solitamente a causa di cambiamenti nel processo di generazione dei dati.
Deriva ricorrente: Questa è anche conosciuta come stagionalità. Un tipico esempio è l’aumento delle vendite durante il periodo natalizio o il Black Friday. Un modello di apprendimento automatico che non tenga conto di questi cambiamenti stagionali finirà per fornire previsioni imprecise per questi cambiamenti stagionali.

Questi quattro tipi di deriva concettuale sono mostrati nella figura seguente.

Gestione della deriva del modello in produzione con MLOps
Tipi di deriva concettuale | Immagine da Apprendimento sotto la deriva dei concetti: una revisione.

Deriva dei dati

La deriva dei dati si verifica quando cambiano le proprietà statistiche dei dati di input. Un esempio di ciò è il cambiamento nella distribuzione dell'età dell'utente di una determinata applicazione nel tempo, quindi un modello addestrato su una specifica distribuzione dell'età che viene utilizzato per le strategie di marketing dovrà essere modificato poiché il cambiamento dell'età influenzerà il strategie di marketing.

Modifiche ai dati a monte

Il terzo tipo di deriva riguarda le modifiche dei dati a monte. Si riferisce alle modifiche dei dati operativi nella pipeline di dati. Un tipico esempio di ciò è quando una caratteristica specifica non viene più generata risultando in un valore mancante. Un altro esempio è un cambiamento nell'unità di misura, ad esempio se un determinato sensore misura la quantità in Celsius e poi cambia in Fahrenheit.

Rilevare la deriva del modello non è semplice e non esiste un metodo universale per rilevarla. Tuttavia, discuteremo alcuni dei metodi più diffusi per rilevarlo:

Il test di Kolmogorov-Smirnov (test KS): Il test KS è un test non parametrico per rilevare il cambiamento nella distribuzione dei dati. Viene utilizzato per confrontare i dati di allenamento e i dati post-allenamento e trovare i cambiamenti nella distribuzione tra di essi. L'ipotesi nulla per questo set di test afferma che la distribuzione dei due set di dati è la stessa, quindi se l'ipotesi nulla viene rifiutata, si verificherà uno spostamento del modello.
L’indice di stabilità della popolazione (PSI): PSI è una misura statistica utilizzata per misurare la somiglianza nella distribuzione delle variabili categoriali in due diversi set di dati. Pertanto può essere utilizzato per misurare i cambiamenti nelle caratteristiche delle variabili categoriali nel set di dati di addestramento e post-addestramento.
Metodo di Page-Hinkley: Il Page-Hinkely è anche un metodo statistico utilizzato per osservare i cambiamenti nella media dei dati nel tempo. Di solito viene utilizzato per rilevare piccoli cambiamenti nella media che non sono evidenti quando si osservano i dati.
Monitoraggio delle prestazioni: Uno dei metodi più importanti per rilevare il cambiamento di concetto è monitorare le prestazioni del modello di machine learning in produzione e osservarne il cambiamento e se supera una determinata soglia possiamo attivare una determinata azione per correggere questo cambiamento di concetto.

Gestione della deriva del modello in produzione con MLOps
Gestire la deriva nella produzione | Immagine di ijeab su Freepik.

Finally, let’s see how to handle the detected model drift in production. There is a wide spectrum of strategies used to handle the model drift depending on the type of drift, the data we are working on, and the project in production. Here is a summary of the popular methods that are used to handle model drift in production:

Apprendimento online: Poiché la maggior parte delle applicazioni del mondo reale vengono eseguite su dati in streaming, l'apprendimento online è uno dei metodi comuni utilizzati per gestire la deriva. Nell'apprendimento online il modello viene aggiornato al volo poiché tratta un campione alla volta.
Riqualificazione periodica del modello: Una volta che le prestazioni del modello scendono al di sotto di una determinata soglia o si osserva uno spostamento dei dati, è possibile impostare un trigger per riqualificare il modello con dati recenti.
Riqualificazione periodica su un sottocampione rappresentativo: Un modo più efficace per gestire la deriva dei concetti è selezionare un sottocampione rappresentativo della popolazione, etichettarlo utilizzando esperti umani e riqualificare il modello su di essi.
Eliminazione di funzionalità: Questo è un metodo semplice ma efficace che può essere utilizzato per gestire la deriva dei concetti. Utilizzando questo metodo addestreremo più modelli, ciascuno utilizzando una funzionalità e per ciascun modello, la risposta AUC-ROC verrà quindi monitorata e se il valore dell'AUC-ROC supera una determinata soglia utilizzando una particolare funzionalità, possiamo rilasciarlo come questo potrebbe partecipare alla deriva.

Riferimenti

In questo articolo abbiamo discusso della deriva del modello, ovvero il fenomeno del machine learning in cui le prestazioni di un modello si deteriorano nel tempo a causa dei cambiamenti nei dati sottostanti. Per superare queste sfide, le aziende si rivolgono a MLOps, un insieme di pratiche e strumenti che gestiscono il ciclo di vita dei modelli di machine learning in produzione.

Abbiamo delineato i diversi tipi di deriva che possono verificarsi, tra cui la deriva dei concetti, la deriva dei dati e le modifiche dei dati a monte, e come rilevare la deriva del modello utilizzando metodi come il test di Kolmogorov-Smirnov, l'indice di stabilità della popolazione e il metodo Page-Hinkley. Infine, abbiamo discusso le tecniche più diffuse per gestire la deriva del modello in produzione, tra cui l'apprendimento online, il riaddestramento periodico del modello, il riaddestramento periodico su un sottocampione rappresentativo e l'eliminazione delle funzionalità.

Youssef Rafat è un ricercatore di visione artificiale e data scientist. La sua ricerca si concentra sullo sviluppo di algoritmi di visione artificiale in tempo reale per applicazioni sanitarie. Ha anche lavorato come data scientist per più di 3 anni nel settore del marketing, della finanza e della sanità.

Altro su questo argomento

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoAiStream. Intelligenza dei dati Web3. Conoscenza amplificata. Accedi qui.
Coniare il futuro con Adryenn Ashley. Accedi qui.
Acquista e vendi azioni in società PRE-IPO con PREIPO®. Accedi qui.
Fonte: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops

Timestamp: 8 Maggio 2023

L'arte dell'ingegneria rapida: decodifica ChatGPT - KDnuggets

L'arte dell'ingegneria rapida: decodificare ChatGPT – KDnuggets

Cluster di origine:

KDnuggets

Nodo di origine: 2707040

Timestamp: 7 giugno 2023

Gestione della deriva del modello in produzione con MLOps

Ripubblicato da Platone

Deriva del concetto

Deriva dei dati

Modifiche ai dati a monte

Riferimenti

Altro su questo argomento

Di più da KDnuggets

Utilizzo dei valori SHAP per l'interpretazione del modello nell'apprendimento automatico – KDnuggets

In che modo la scienza dei dati può trasformare lo sviluppo di app mobili?

Sfruttare l'intelligenza artificiale per progettare reti di ricarica per veicoli elettrici giuste ed eque – KDnuggets

Come funziona ChatGPT: il modello dietro il bot

Dalla finzione alla realtà: ChatGPT e il sogno fantascientifico di una vera conversazione con l'intelligenza artificiale – KDnuggets

I 5 migliori database vettoriali da provare nel 2024 – KDnuggets

5 Strumenti di visualizzazione SQL per ingegneri di dati

L'arte dell'ingegneria rapida: decodificare ChatGPT – KDnuggets

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account