Desvio de dados versus desvio de conceito: qual é a diferença?

Desvio de dados versus desvio de conceito: qual é a diferença?

Nó Fonte: 1936845

Desvio de modelo refere-se ao fenômeno que ocorre quando o desempenho de um modelo de aprendizado de máquina diminui com o tempo. Isso acontece por vários motivos, incluindo alterações na distribuição de dados, alterações nas metas ou objetivos do modelo ou alterações no ambiente em que o modelo está operando. Existem dois principais tipos de desvio de modelo que podem ocorrer: desvio de dados e desvio de conceito.

O desvio de dados refere-se à mudança na distribuição dos dados aos quais o modelo é aplicado. Desvio de conceito refere-se a uma meta ou objetivo subjacente em mudança para o modelo. Tanto o desvio de dados quanto o desvio de conceito podem levar a um declínio no desempenho de um aprendizado de máquina modelo.

O desvio de modelo pode ser um problema significativo para sistemas de aprendizado de máquina implantados em configurações do mundo real, pois pode levar a previsões ou decisões imprecisas ou não confiáveis. Para lidar com o desvio do modelo, é importante monitorar constantemente o desempenho dos modelos de aprendizado de máquina ao longo do tempo e tomar medidas para evitá-lo ou mitigá-lo, como treinar novamente o modelo com novos dados ou ajustar os parâmetros do modelo. Esses sistemas de monitoramento e ajuste devem ser parte integrante de um sistema de implantação de software para modelos de ML.

Desvio de conceito x desvio de dados: qual é a diferença?

Deriva de dados

Desvio de dados, ou mudança de covariável, refere-se ao fenômeno em que a distribuição de entradas de dados que um Modelo de ML foi treinado difere da distribuição das entradas de dados às quais o modelo é aplicado. Isso pode fazer com que o modelo se torne menos preciso ou eficaz em fazer previsões ou decisões.

Uma representação matemática do desvio de dados pode ser expressa da seguinte forma:

P(x|y) ≠ P(x|y')

Onde P(x|y) se refere à distribuição de probabilidade dos dados de entrada (x) dados os dados de saída (y) e P(x|y') é a distribuição de probabilidade dos dados de entrada dados os dados de saída para os novos dados a serem qual o modelo é aplicado (y').

Por exemplo, suponha que um modelo de ML foi treinado em um conjunto de dados de clientes de uma determinada loja de varejo e o modelo foi usado para prever se um cliente faria uma compra com base em sua idade, renda e localização. 

Se a distribuição dos dados de entrada (idade, renda e localização) para os novos dados alimentados ao modelo diferir significativamente da distribuição dos dados de entrada no conjunto de dados de treinamento, isso pode levar a um desvio de dados e resultar em um modelo menos preciso.

Superando o Desvio de Dados

Uma maneira de superar o desvio de dados é usar técnicas como ponderação ou amostragem para ajustar as diferenças nas distribuições de dados. Por exemplo, você pode ponderar os exemplos no conjunto de dados de treinamento para corresponder melhor à distribuição de dados de entrada para os novos dados aos quais o modelo será aplicado. 

Como alternativa, você pode fazer uma amostra dos novos dados e dos dados de treinamento para criar um conjunto de dados balanceado para treinar o modelo. Outra abordagem é usar técnicas de adaptação de domínio, que visam adaptar o modelo à nova distribuição de dados aprendendo um mapeamento entre o domínio de origem (os dados de treinamento) e o domínio de destino (os novos dados). Uma maneira de conseguir isso é usando geração de dados sintéticos algoritmos.

Conceito Drift

O desvio de conceito ocorre quando há uma mudança na relação funcional entre os dados de entrada e saída de um modelo. O modelo continua a funcionar da mesma forma, apesar do contexto alterado, sem saber das mudanças. Assim, os padrões que aprendeu durante o treinamento não são mais precisos.

O desvio de conceito também é chamado às vezes de desvio de classe ou mudança de probabilidade posterior. Isso porque se refere às mudanças nas probabilidades entre diferentes situações:

Pt1 (Y|X) ≠ Pt2 (Y|X)

Esse tipo de desvio é causado por processos ou eventos externos. Por exemplo, você pode ter um modelo que prevê o custo de vida com base na localização geográfica, com diferentes regiões como entrada. No entanto, o nível de desenvolvimento de cada região pode aumentar ou diminuir, alterando o custo de vida no mundo real. Assim, o modelo perde a capacidade de fazer previsões precisas. 

O significado original de “desvio de conceito” é uma mudança na forma como entendemos rótulos específicos. Um exemplo é o que rotulamos como “spam” nos e-mails. Padrões como e-mails frequentes e em massa já foram considerados sinais de spam, mas nem sempre é o caso hoje. Os detectores de spam que ainda usam esses atributos desatualizados serão menos eficazes na identificação de spam porque têm desvio de conceito e exigem novo treinamento.

Aqui estão mais exemplos de deriva de conceito:

  • O impacto das mudanças no código tributário em um modelo que prevê o compliance fiscal
  • O impacto da evolução do comportamento do cliente em um modelo que prevê vendas de produtos
  • O impacto de uma crise financeira nas previsões de lucros de uma empresa

Desvio de Conceito vs. Desvio de Dados

Com o desvio de dados, o limite de decisão não muda; apenas a distribuição de probabilidade das entradas muda – P(x). Com o desvio de conceito, o limite de decisão muda, com a distribuição de entrada e saída mudando – P(x) e P(y). 

Outra diferença importante é que o desvio de dados é resultado principalmente de fatores internos, como coleta, processamento e treinamento de dados. O desvio de conceito geralmente resulta de fatores externos, como a situação no mundo real.

Estratégias para detectar e superar desvios de dados e conceitos

Existem várias estratégias que podem ajudar a detectar e superar o desvio do modelo em um sistema de aprendizado de máquina:

  • Monitoramento de desempenho: Avaliar regularmente o desempenho do modelo de ML em um conjunto de dados de validação ou em produção pode ajudar a identificar qualquer declínio na precisão ou outras métricas que possam indicar desvio do modelo.
  • Algoritmos de detecção de desvio de dados e conceitos: Existem algoritmos projetados especificamente para detectar desvios de dados, como o teste Page-Hinkley ou o teste Kolmogorov-Smirnov, bem como algoritmos que detectam desvios de conceito, como o algoritmo ADWIN. Esses algoritmos podem identificar automaticamente alterações nos dados de entrada ou na tarefa que podem indicar desvio do modelo.
  • Técnicas de prevenção de desvio de dados e conceitos: Essas técnicas podem ajudar a evitar que ocorram desvios de dados ou conceitos em primeiro lugar. Por exemplo, o uso de aumento de dados ou geração de dados sintéticos pode ajudar a garantir que um modelo de ML tenha exposição a uma ampla gama representativa de dados, o que pode torná-lo mais resiliente a mudanças na distribuição de dados. Da mesma forma, o uso de aprendizado por transferência ou aprendizado multitarefa pode ajudar o modelo a se adaptar a uma tarefa ou objetivo em mudança.
  • Retreinamento e ajuste fino: Se o desvio do modelo for detectado, retreinar ou ajustar o modelo em novos dados pode ajudar a superá-lo. Isso pode ser feito periodicamente ou em resposta a mudanças significativas nos dados ou na tarefa.

Ao monitorar regularmente o desvio do modelo e tomar medidas proativas para evitá-lo ou mitigá-lo, é possível manter a precisão e a confiabilidade dos modelos de aprendizado de máquina ao longo do tempo.

Conclusão

Em conclusão, o desvio de dados e o desvio do modelo são dois fenômenos importantes que podem afetar o desempenho dos modelos de aprendizado de máquina (ML). 

O desvio de dados, também conhecido como deslocamento de covariável, ocorre quando a distribuição dos dados de entrada nos quais um modelo de ML foi treinado difere da distribuição dos dados de entrada aos quais o modelo é aplicado. O desvio de modelo, também conhecido como desvio de conceito, ocorre quando as propriedades estatísticas dos dados nos quais um modelo de ML foi treinado mudam ao longo do tempo. 

Tanto o desvio de dados quanto o desvio de modelo podem fazer com que o modelo se torne menos preciso ou eficaz em fazer previsões ou decisões, e é importante entender e abordar esses fenômenos para manter o desempenho de um modelo de ML ao longo do tempo. 

Existem várias técnicas que podem ser usadas para superar o desvio de dados e o desvio do modelo, incluindo treinar novamente o modelo em dados atualizados, usar aprendizado online ou aprendizado adaptativo e monitorar o desempenho do modelo ao longo do tempo.

Carimbo de hora:

Mais de DATAVERSIDADE