5 razones por las que necesita datos sintéticos

5 razones por las que necesita datos sintéticos

Nodo de origen: 1942868

5 razones por las que necesita datos sintéticos
Datos sintéticos generados a partir de Kubric
 

Para entrenar un modelo de aprendizaje automático, necesita datos. Las tareas de ciencia de datos no suelen ser una competencia de Kaggle en la que tiene un gran conjunto de datos curado que viene preetiquetado. A veces tienes que recopilar, organizar y limpiar tus propios datos. Este proceso de recopilación y etiquetado de datos en el mundo real puede llevar mucho tiempo, ser engorroso, costoso, impreciso y, a veces, peligroso. Además, al final de este proceso, puede terminar con los datos que encontró en el mundo real que no necesariamente son los datos que le gustaría en términos de calidad, diversidad (p. ej., desequilibrio de clases) y cantidad. A continuación se presentan problemas comunes que puede encontrar al trabajar con datos reales: 

  • La recopilación y el etiquetado de datos reales no son escalables
  • El etiquetado manual de datos reales a veces puede ser imposible
  • Los datos reales tienen problemas de privacidad y seguridad
  • Los datos reales no son programables
  • Un modelo entrenado exclusivamente en datos reales no tiene el rendimiento suficiente (p. ej., velocidad de desarrollo lenta)

Afortunadamente, problemas como estos se pueden resolver con datos sintéticos. Te estarás preguntando, ¿Qué son los datos sintéticos?? Los datos sintéticos se pueden definir como datos generados artificialmente que normalmente se crean utilizando algoritmos que simulan procesos del mundo real, desde el comportamiento de otros usuarios de la carretera hasta el comportamiento de la luz cuando interactúa con las superficies. Esta publicación repasa las limitaciones de los datos del mundo real y cómo los datos sintéticos pueden ayudar a superar estos problemas y mejorar el rendimiento del modelo. 

Para conjuntos de datos pequeños, generalmente es posible recopilar y etiquetar datos manualmente; sin embargo, muchas tareas complejas de aprendizaje automático requieren conjuntos de datos masivos para el entrenamiento. Por ejemplo, los modelos entrenados para aplicaciones de vehículos autónomos necesitan grandes cantidades de datos recopilados de sensores conectados a automóviles o drones. Este proceso de recopilación de datos es lento y puede llevar meses o incluso años. Una vez que se recopilan los datos sin procesar, los seres humanos deben anotarlos manualmente, lo que también es costoso y requiere mucho tiempo. Además, no hay garantía de que los datos etiquetados que se devuelvan sean beneficiosos como datos de entrenamiento, ya que es posible que no contengan ejemplos que informen las lagunas de conocimiento actuales del modelo. 

[contenido incrustado][contenido incrustado]

Etiquetar estos datos a menudo implica que los humanos dibujen etiquetas a mano sobre los datos del sensor. Esto es muy costoso ya que los equipos de ML bien pagados a menudo pasan una gran parte de su tiempo asegurándose de que las etiquetas sean correctas y enviando los errores a los etiquetadores. Una de las principales ventajas de los datos sintéticos es que puede generar tantos datos perfectamente etiquetados como desee. Todo lo que necesita es una forma de generar datos sintéticos de calidad. 

Software de código abierto para generar datos sintéticos: Kubric (vídeos multiobjeto con máscaras de segmentación, mapas de profundidad y flujo óptico) y SDV (datos tabulares, relacionales y de series de tiempo).

Algunas (de muchas) empresas que venden productos o crean plataformas que pueden generar datos sintéticos incluyen Gretel.ai (conjuntos de datos sintéticos que garantizan la privacidad de los datos reales), NVIDIA (omniverso), y Dominio paralelo (vehículos autónomos). Para más, ver la lista de empresas de datos sintéticos de 2022

5 razones por las que necesita datos sintéticos
Imagen de Dominio paralelo
 

Hay algunos datos que los humanos no pueden interpretar y etiquetar completamente. A continuación se muestran algunos casos de uso en los que los datos sintéticos son la única opción: 

  • Estimación precisa de la profundidad y flujo óptico de imágenes individuales
  • Aplicaciones de conducción autónoma que utilizan datos de radar que no son visibles para el ojo humano 
  • Generar falsificaciones profundas que se pueden usar para probar los sistemas de reconocimiento facial.

5 razones por las que necesita datos sintéticos
Imagen de Michael Galarnyk
 

Los datos sintéticos son muy útiles para aplicaciones en dominios en los que no es fácil obtener datos reales. Esto incluye algunos tipos de datos de accidentes automovilísticos y la mayoría de los tipos de datos de salud que tienen restricciones de privacidad (por ejemplo, registros de salud electrónicos). En los últimos años, los investigadores de la salud se han interesado en predecir la fibrilación auricular (ritmo cardíaco irregular) utilizando señales de ECG y PPG. Desarrollar un detector de arritmias no solo es un desafío, ya que la anotación de estas señales es tediosa y costosa, sino también debido a las restricciones de privacidad. Esta es una de las razones por las que hay investigación en la simulación de estas señales

Es importante enfatizar que recopilar datos reales no solo requiere tiempo y energía, sino que en realidad puede ser peligroso. Uno de los principales problemas de las aplicaciones robóticas, como los automóviles autónomos, es que son aplicaciones físicas de aprendizaje automático. No puede implementar un modelo inseguro en el mundo real y tener un bloqueo debido a la falta de datos relevantes. Aumentar un conjunto de datos con datos sintéticos puede ayudar a los modelos a evitar estos problemas. 

Las siguientes son algunas empresas que utilizan datos sintéticos para mejorar la seguridad de las aplicaciones: Toyota, Waymoy Cruise.

5 razones por las que necesita datos sintéticos
Imagen de Dominio paralelo
 

Imagen sintética de un niño ocluido en una bicicleta saliendo de detrás de un autobús escolar y cruzando la calle en bicicleta en un entorno suburbano al estilo de California.

Las aplicaciones de vehículos autónomos a menudo se ocupan de eventos relativamente "poco comunes" (en relación con las condiciones normales de conducción), como peatones en la noche o ciclistas que circulan en medio de la carretera. Los modelos a menudo necesitan cientos de miles o incluso millones de ejemplos para aprender un escenario. Un problema importante es que los datos del mundo real recopilados pueden no ser lo que está buscando en términos de calidad, diversidad (p. ej., desequilibrio de clases, condiciones climáticas, ubicación) y cantidad. Otro problema es que, para los automóviles y robots autónomos, no siempre sabe qué datos necesita, a diferencia de las tareas tradicionales de aprendizaje automático con conjuntos de datos fijos y puntos de referencia fijos. Si bien algunas técnicas de aumento de datos que alteran imágenes de manera sistemática o aleatoria son útiles, estas técnicas pueden presentar sus propios problemas

Aquí es donde entran los datos sintéticos. Las API de generación de datos sintéticos le permiten diseñar conjuntos de datos. Estas API pueden ahorrarle mucho dinero, ya que es muy costoso construir robots y recopilar datos en el mundo real. Es mucho mejor y más rápido intentar generar datos y descubrir los principios de ingeniería mediante la generación de conjuntos de datos sintéticos.

Los siguientes son ejemplos que destacan cómo los datos sintéticos programables ayudan a los modelos a aprender: prevención de transacciones fraudulentas (American Express), Mejor detección de ciclistas (Dominio Paralelo)y análisis y revisión de cirugías (Hutom.io).

5 razones por las que necesita datos sintéticos
Fases del Ciclo de Desarrollo del Modelo | Imagen de Jules Damji 
 

En la industria hay muchos factores que afectan la viabilidad/rendimiento de un proyecto de aprendizaje automático tanto en desarrollo como en producción (p. ej., adquisición de datos, anotación, entrenamiento de modelos, escalamiento, implementación, monitoreo, reentrenamiento de modelos y velocidad de desarrollo). Recientemente, 18 ingenieros de aprendizaje automático participaron en un estudio de entrevistas que tenía el objetivo de comprender las prácticas y los desafíos comunes de MLOps en todas las organizaciones y aplicaciones (por ejemplo, vehículos autónomos, hardware informático, comercio minorista, anuncios, sistemas de recomendación, etc.). Una de las conclusiones del estudio fue la importancia de la velocidad de desarrollo, que puede definirse aproximadamente como la capacidad de crear rápidamente prototipos e iterar ideas.

Un factor que afecta la velocidad de desarrollo es la necesidad de tener datos para realizar el entrenamiento y la evaluación del modelo inicial. así como frecuentes reentrenamientos de modelos debido a que el rendimiento del modelo decae con el tiempo debido a la deriva de datos, la deriva de concepto o incluso el sesgo de servicio de capacitación de trenes. 

 

5 razones por las que necesita datos sintéticos
Imagen de Evidentemente AI
 

El estudio también informó que esta necesidad llevó a algunas organizaciones a establecer un equipo para etiquetar datos en vivo con frecuencia. Esto es costoso, lleva mucho tiempo y limita la capacidad de una organización para volver a entrenar modelos con frecuencia. 

 

5 razones por las que necesita datos sintéticos
Imagen de Gretel.ai
 

Tenga en cuenta que este diagrama no cubre cómo los datos sintéticos también se pueden usar para cosas como Pruebas de MLOps en recomendadores.

Los datos sintéticos tienen el potencial de usarse con datos del mundo real en el ciclo de vida del aprendizaje automático (en la imagen de arriba) para ayudar a las organizaciones a mantener el rendimiento de sus modelos por más tiempo. 

La generación de datos sintéticos se está volviendo cada vez más común en los flujos de trabajo de aprendizaje automático. De hecho, Gartner predice que para 2030, los datos sintéticos se utilizarán mucho más que los datos del mundo real para entrenar modelos de aprendizaje automático. Si tiene alguna pregunta o comentario sobre esta publicación, no dude en comunicarse en los comentarios a continuación o a través de Twitter.
 
 
Michael Galarnyk es un profesional de ciencia de datos y trabaja en relaciones con desarrolladores en Anyscale.
 

Sello de tiempo:

Mas de nuggets