Deriva de datos vs. Deriva de concepto: ¿Cuál es la diferencia?

Deriva de datos vs. Deriva de concepto: ¿Cuál es la diferencia?

Nodo de origen: 1936845

La deriva del modelo se refiere al fenómeno que ocurre cuando el rendimiento de un modelo de aprendizaje automático se degrada con el tiempo. Esto sucede por varios motivos, incluidos cambios en la distribución de datos, cambios en las metas u objetivos del modelo o cambios en el entorno en el que opera el modelo. Hay dos principales tipos de deriva del modelo que pueden ocurrir: deriva de datos y deriva de conceptos.

La deriva de datos se refiere a la distribución cambiante de los datos a los que se aplica el modelo. La desviación del concepto se refiere a una meta u objetivo subyacente cambiante para el modelo. Tanto la deriva de datos como la deriva de conceptos pueden conducir a una disminución en el rendimiento de un máquina de aprendizaje modelo.

La deriva del modelo puede ser un problema importante para los sistemas de aprendizaje automático que se implementan en entornos del mundo real, ya que puede generar predicciones o decisiones imprecisas o poco confiables. Para abordar la desviación del modelo, es importante monitorear constantemente el rendimiento de los modelos de aprendizaje automático a lo largo del tiempo y tomar medidas para prevenirlo o mitigarlo, como volver a entrenar el modelo con nuevos datos o ajustar los parámetros del modelo. Estos sistemas de control y ajuste deben ser parte integrante de un sistema de despliegue de software para modelos ML.

Deriva de conceptos frente a desviaciones de datos: ¿cuál es la diferencia?

Deriva de datos

La deriva de datos, o cambio de covariable, se refiere al fenómeno en el que la distribución de las entradas de datos que un Modelo ML en el que se entrenó difiere de la distribución de las entradas de datos a las que se aplica el modelo. Esto puede hacer que el modelo se vuelva menos preciso o efectivo para hacer predicciones o tomar decisiones.

Una representación matemática de la deriva de datos se puede expresar de la siguiente manera:

P(x|y) ≠ P(x|y')

Donde P(x|y) se refiere a la distribución de probabilidad de los datos de entrada (x) dados los datos de salida (y), y P(x|y') es la distribución de probabilidad de los datos de entrada dados los datos de salida para los nuevos datos a que se aplica el modelo (y').

Por ejemplo, supongamos que un modelo de ML se entrenó en un conjunto de datos de clientes de una tienda minorista en particular, y el modelo se usó para predecir si un cliente realizaría una compra en función de su edad, ingresos y ubicación. 

Si la distribución de los datos de entrada (edad, ingresos y ubicación) para los nuevos datos que se alimentan al modelo difiere significativamente de la distribución de los datos de entrada en el conjunto de datos de entrenamiento, esto podría provocar una desviación de los datos y hacer que el modelo se vuelva menos preciso.

Superando la deriva de datos

Una forma de superar la deriva de datos es utilizar técnicas como la ponderación o el muestreo para ajustar las diferencias en las distribuciones de datos. Por ejemplo, puede ponderar los ejemplos en el conjunto de datos de entrenamiento para que coincidan más con la distribución de datos de entrada para los nuevos datos a los que se aplicará el modelo. 

De manera alternativa, puede tomar muestras de los nuevos datos y los datos de entrenamiento para crear un conjunto de datos equilibrado para entrenar el modelo. Otro enfoque consiste en utilizar técnicas de adaptación de dominio, cuyo objetivo es adaptar el modelo a la nueva distribución de datos mediante el aprendizaje de un mapeo entre el dominio de origen (los datos de entrenamiento) y el dominio de destino (los nuevos datos). Una forma de lograr esto es usando generación de datos sintéticos algoritmos.

Deriva del concepto

La deriva de conceptos ocurre cuando hay un cambio en la relación funcional entre los datos de entrada y salida de un modelo. El modelo sigue funcionando igual a pesar del cambio de contexto, sin darse cuenta de los cambios. Por lo tanto, los patrones que ha aprendido durante el entrenamiento ya no son precisos.

La deriva de concepto también se denomina a veces deriva de clase o cambio de probabilidad posterior. Esto se debe a que se refiere a los cambios de probabilidades entre diferentes situaciones:

Punto1 (Y|X) ≠ Punto2 (Y|X)

Este tipo de deriva es causado por procesos o eventos externos. Por ejemplo, puede tener un modelo que prediga el costo de vida según la ubicación geográfica, con diferentes regiones como entrada. Sin embargo, el nivel de desarrollo de cada región puede aumentar o disminuir, cambiando el costo de vida en el mundo real. Por lo tanto, el modelo pierde la capacidad de hacer predicciones precisas. 

El significado original de "desviación de conceptos" es un cambio en la forma en que entendemos las etiquetas específicas. Un ejemplo es lo que etiquetamos como “spam” en los correos electrónicos. Patrones como correos electrónicos masivos y frecuentes alguna vez se consideraron signos de correo no deseado, pero no siempre es así en la actualidad. Los detectores de correo no deseado que aún usan estos atributos obsoletos serán menos efectivos al identificar el correo no deseado porque tienen una desviación del concepto y requieren una nueva capacitación.

Aquí hay más ejemplos de desviación de conceptos:

  • El impacto de los cambios al código tributario en un modelo que predice el cumplimiento tributario
  • El impacto de la evolución del comportamiento del cliente en un modelo que predice las ventas de productos
  • El impacto de una crisis financiera en las predicciones de los beneficios de una empresa

Deriva de conceptos vs. Deriva de datos

Con la deriva de datos, el límite de decisión no cambia; solo cambia la distribución de probabilidad de las entradas: P(x). Con la desviación del concepto, el límite de decisión cambia, y tanto la distribución de entrada como la de salida cambian: P(x) y P(y). 

Otra diferencia importante es que la deriva de datos es principalmente el resultado de factores internos, como la recopilación, el procesamiento y la capacitación de datos. La desviación del concepto generalmente se debe a factores externos, como la situación en el mundo real.

Estrategias para detectar y superar la deriva de datos y conceptos

Hay varias estrategias que pueden ayudar a detectar y superar la desviación del modelo en un sistema de aprendizaje automático:

  • Supervisión del rendimiento: La evaluación regular del rendimiento del modelo de ML en un conjunto de datos reservado o en producción puede ayudar a identificar cualquier disminución en la precisión u otras métricas que puedan indicar una desviación del modelo.
  • Algoritmos de detección de deriva de datos y conceptos: Existen algoritmos diseñados específicamente para detectar la deriva de datos, como la prueba de Page-Hinkley o la prueba de Kolmogorov-Smirnov, así como algoritmos que detectan la deriva de conceptos, como el algoritmo ADWIN. Estos algoritmos pueden identificar automáticamente los cambios en los datos de entrada o la tarea que pueden indicar una desviación del modelo.
  • Técnicas de prevención de deriva de datos y conceptos: Estas técnicas pueden ayudar a evitar que se produzca una deriva de datos o conceptos en primer lugar. Por ejemplo, el uso del aumento de datos o la generación de datos sintéticos puede ayudar a garantizar que un modelo de ML esté expuesto a una amplia gama de datos representativos, lo que puede hacerlo más resistente a los cambios en la distribución de datos. Del mismo modo, el uso del aprendizaje por transferencia o el aprendizaje multitarea puede ayudar al modelo a adaptarse a una tarea u objetivo cambiante.
  • Reentrenamiento y puesta a punto: Si se detecta una desviación del modelo, volver a entrenar o ajustar el modelo con nuevos datos puede ayudar a superarla. Esto se puede hacer periódicamente o en respuesta a cambios significativos en los datos o la tarea.

Al monitorear regularmente la desviación del modelo y tomar medidas proactivas para prevenirla o mitigarla, es posible mantener la precisión y confiabilidad de los modelos de aprendizaje automático a lo largo del tiempo.

Conclusión

En conclusión, la deriva de datos y la deriva de modelo son dos fenómenos importantes que pueden afectar el rendimiento de los modelos de aprendizaje automático (ML). 

La deriva de datos, también conocida como cambio de covariable, ocurre cuando la distribución de los datos de entrada en los que se entrenó un modelo de ML difiere de la distribución de los datos de entrada a los que se aplica el modelo. La deriva del modelo, también conocida como deriva del concepto, ocurre cuando las propiedades estadísticas de los datos en los que se entrenó un modelo de ML cambian con el tiempo. 

Tanto la deriva de datos como la deriva del modelo pueden hacer que el modelo se vuelva menos preciso o efectivo para hacer predicciones o tomar decisiones, y es importante comprender y abordar estos fenómenos para mantener el rendimiento de un modelo de ML a lo largo del tiempo. 

Hay varias técnicas que se pueden usar para superar la deriva de datos y la deriva del modelo, incluido el reentrenamiento del modelo con datos actualizados, el uso del aprendizaje en línea o el aprendizaje adaptativo, y el seguimiento del rendimiento del modelo a lo largo del tiempo.

Sello de tiempo:

Mas de VERSIDAD DE DATOS