Gerenciando desvios de modelo na produção com MLOps

Republicado por Platão

seguidores: 0

Os modelos de aprendizado de máquina são ferramentas poderosas que podem ajudar as empresas a tomar decisões mais informadas e otimizar suas operações. No entanto, à medida que esses modelos são implantados e executados em produção, eles estão sujeitos a um fenômeno conhecido como desvio de modelo.

O desvio do modelo ocorre quando o desempenho de um modelo de machine learning se degrada ao longo do tempo devido a alterações nos dados subjacentes, levando a previsões imprecisas e consequências potencialmente significativas para um negócio. Para enfrentar esse desafio, as organizações estão recorrendo ao MLOps, um conjunto de práticas e ferramentas que ajudam a gerenciar o ciclo de vida do aprendizado de máquina de produção.

In this article, we’ll explore model drift, the different types of it, how to detect it, and most importantly, how to handle it in production using MLOps. By understanding and managing model drift, businesses can ensure that their machine learning models remain accurate and effective over time, delivering the insights and outcomes that they need to thrive.

Gerenciando o Desvio de Modelo na Produção com MLOps
Foto por Nicolas Peyrol on Unsplash

O desvio do modelo, também conhecido como decadência do modelo, é um fenômeno no aprendizado de máquina em que o desempenho do modelo diminui com o tempo. Isso significa que o modelo começará gradualmente a fornecer previsões ruins que diminuirão a precisão ao longo do tempo.

Existem diferentes razões para a mudança de modelo, tais como alterações na recolha de dados ou nas relações subjacentes entre variáveis. Portanto, o modelo não conseguirá capturar essas mudanças e o desempenho diminuirá à medida que as mudanças aumentarem.

Detectar e resolver o desvio do modelo é uma das tarefas essenciais que os MLOps resolvem. Técnicas como monitoramento de modelo são usadas para detectar a presença de desvio de modelo e o retreinamento de modelo é uma das principais técnicas usadas para superar desvio de modelo.

Compreender o tipo de desvio do modelo é essencial para atualizar o modelo com base nas alterações ocorridas nos dados. Existem três tipos principais de deriva:

Conceito Drift

A deriva de conceito ocorre quando o relacionamento entre o alvo e a entrada muda. Portanto, o algoritmo de aprendizado de máquina não fornecerá uma previsão precisa. Existem quatro tipos principais de desvio de conceito:

Deriva repentina: Uma mudança repentina de conceito ocorre se a relação entre as variáveis independentes e dependentes ocorrer repentinamente. Um exemplo muito famoso é a ocorrência repentina da pandemia de covid 19. A ocorrência da pandemia mudou repentinamente a relação entre a variável alvo e as características em diferentes campos, de modo que um modelo preditivo treinado em dados pré-treinados não será capaz de prever com precisão durante o período de pandemia.
Deriva Gradual: In a gradual concept drift, the relation between the input and the target may change slowly and subtly. This can result in a slow decline in the performance of a machine learning model, as the model becomes less accurate over time. An example of the gradual concept drift is fraudulent behavior. Fraudsters tend to understand how the fraud detection system works and change their behavior over time to escape the system. Therefore a machine learning model trained on historical fraudulent transaction data will not accurately predict the gradual changes in the fraudster’s behavior. For example, consider a machine learning model used for predicting stock prices in which the model is trained on data from the past five years and its performance is evaluated on new data from the current year. However, as time goes by, the market dynamics may change, and the relationship between the variables that influence stock prices may evolve gradually. This can result in incremental drift, where the model’s accuracy gradually deteriorates over time as it becomes less effective at capturing the changing relationship between the variables.
Deriva Incremental: O desvio incremental ocorre quando a relação entre a variável alvo e a entrada muda gradualmente ao longo do tempo, o que geralmente ocorre devido a mudanças no processo de geração de dados.
Deriva recorrente: Isso também é conhecido como sazonalidade. Um exemplo típico é o aumento das vendas durante o Natal ou a Black Friday. Um modelo de aprendizado de máquina que não leve em consideração essas mudanças sazonais acabará fornecendo previsões imprecisas para essas mudanças sazonais.

Esses quatro tipos de desvio de conceito são mostrados na figura abaixo.

Gerenciando o Desvio de Modelo na Produção com MLOps
Tipos de desvio de conceito | Imagem de Aprendizagem sob desvio de conceito: uma revisão.

Deriva de dados

O desvio de dados ocorre quando as propriedades estatísticas dos dados de entrada mudam. Um exemplo disso é a mudança na distribuição etária do usuário de um determinado aplicativo ao longo do tempo, portanto um modelo treinado em uma distribuição etária específica que seja utilizada para estratégias de marketing terá que ser alterado pois a mudança na idade afetará o Estratégias de marketing.

Alterações de dados upstream

O terceiro tipo de desvio são as alterações de dados upstream. Isso se refere às alterações de dados operacionais no pipeline de dados. Um exemplo típico disso é quando um recurso específico não é mais gerado, resultando em um valor ausente. Outro exemplo é uma mudança na unidade de medida, por exemplo, se um determinado sensor mede uma quantidade em Celsius e depois muda para Fahrenheit.

Detectar o desvio do modelo não é simples e não existe um método universal para detectá-lo. No entanto, discutiremos alguns dos métodos populares para detectá-lo:

O teste Kolmogorov-Smirnov (teste KS): O teste KS é um teste não paramétrico para detectar a mudança na distribuição dos dados. É usado para comparar os dados de treinamento e os dados pós-treinamento e encontrar as mudanças na distribuição entre eles. A hipótese nula para este conjunto de teste afirma que a distribuição dos dois conjuntos de dados é a mesma, portanto, se a hipótese nula for rejeitada, haverá uma mudança de modelo.
O Índice de Estabilidade Populacional (PSI): PSI é uma medida estatística usada para medir a similaridade na distribuição de variáveis categóricas em dois conjuntos de dados diferentes. Portanto, pode ser usado para medir as mudanças nas características das variáveis categóricas no conjunto de dados de treinamento e pós-treinamento.
Método Page-Hinkley: O Page-Hinkely também é um método estatístico usado para observar mudanças na média dos dados ao longo do tempo. Geralmente é usado para detectar pequenas mudanças na média que não são aparentes quando se olha os dados.
Monitoramento de Desempenho: Um dos métodos mais importantes para detectar a mudança de conceito é monitorar o desempenho do modelo de aprendizado de máquina em produção e observar sua mudança e se ultrapassar um determinado limite podemos desencadear uma determinada ação para corrigir essa mudança de conceito.

Gerenciando o Desvio de Modelo na Produção com MLOps
Lidando com desvios na produção | Imagem por ijeab no Freepik.

Finally, let’s see how to handle the detected model drift in production. There is a wide spectrum of strategies used to handle the model drift depending on the type of drift, the data we are working on, and the project in production. Here is a summary of the popular methods that are used to handle model drift in production:

Aprendizagem online: como a maioria dos aplicativos do mundo real são executados em streaming de dados, o aprendizado on-line é um dos métodos comuns usados para lidar com o desvio. No aprendizado on-line, o modelo é atualizado instantaneamente à medida que o modelo lida com uma amostra por vez.
Retreinar periodicamente o modelo: Quando o desempenho do modelo cair abaixo de um determinado limite ou uma mudança de dados for observada, um gatilho poderá ser definido para treinar novamente o modelo com dados recentes.
Retreinar periodicamente em uma subamostra representativa: Uma maneira mais eficaz de lidar com a deriva de conceito é selecionar uma subamostra representativa da população e rotulá-la usando especialistas humanos e treinar novamente o modelo sobre eles.
Eliminação de recursos: Este é um método simples, mas eficaz, que pode ser usado para lidar com desvios de conceito. Usando este método, treinaremos vários modelos, cada um usando um recurso e, para cada modelo, a resposta AUC-ROC é então monitorada, e se o valor do AUC-ROC ultrapassou um determinado limite usando um recurso específico, podemos descartá-lo como isso pode participar da deriva.

Referências

Neste artigo, discutimos o desvio do modelo, que é o fenômeno do aprendizado de máquina em que o desempenho de um modelo se deteriora ao longo do tempo devido a alterações nos dados subjacentes. As empresas estão recorrendo ao MLOps, um conjunto de práticas e ferramentas que gerenciam o ciclo de vida dos modelos de aprendizado de máquina na produção, para superar esses desafios.

Descrevemos os diferentes tipos de desvio que podem ocorrer, incluindo desvio de conceito, desvio de dados e alterações de dados upstream, e como detectar desvio de modelo usando métodos como o teste de Kolmogorov-Smirnov, Índice de Estabilidade Populacional e método Page-Hinkley. Por fim, discutimos as técnicas populares para lidar com o desvio do modelo na produção, incluindo aprendizado on-line, retreinamento periódico do modelo, retreinamento periódico em uma subamostra representativa e eliminação de recursos.

Youssef Rafael é um pesquisador de visão computacional e cientista de dados. Sua pesquisa se concentra no desenvolvimento de algoritmos de visão computacional em tempo real para aplicações de saúde. Ele também trabalhou como cientista de dados por mais de 3 anos nos domínios de marketing, finanças e saúde.