Los modelos de texto a imagen aprenden de manera más eficiente con datos falsos

Los modelos de texto a imagen aprenden de manera más eficiente con datos falsos

Nodo de origen: 2974582

Las imágenes sintéticas pueden ayudar a los modelos de IA a aprender representaciones visuales con mayor precisión en comparación con las instantáneas reales, según científicos informáticos del MIT y Google. El resultado son redes neuronales que son mejores para crear imágenes a partir de descripciones escritas.

La esencia de todos los modelos de conversión de texto a imagen es su capacidad de asignar objetos a palabras. Al recibir un mensaje de texto, como “un niño sosteniendo un globo rojo en un día soleado”, por ejemplo, deben devolver una imagen que se aproxime a la descripción. Para hacer esto, necesitan aprender las representaciones visuales de cómo serían un niño, un globo rojo y un día soleado. 

El equipo de MIT-Google cree que las redes neuronales pueden generar imágenes más precisas a partir de indicaciones después de haber sido entrenadas con imágenes creadas por IA en lugar de utilizar instantáneas reales. Para demostrar esto, el grupo desarrolló Representante estable, que aprende cómo convertir subtítulos escritos descriptivos en imágenes correspondientes correctas a partir de imágenes generadas por el popular modelo de texto a imagen de código abierto Stable Diffusion.

En otras palabras: utilizar un modelo de IA entrenado y establecido para enseñar otros modelos.

Como señala el artículo preimpreso de los científicos, publicado a través de arXiv a finales del mes pasado, dice: "Con imágenes únicamente sintéticas, las representaciones aprendidas por StableRep superan el rendimiento de las representaciones aprendidas por SimCLR y CLIP utilizando el mismo conjunto de indicaciones de texto y las correspondientes imágenes reales, en conjuntos de datos a gran escala". SimCLR y CLIP son algoritmos de aprendizaje automático que se pueden utilizar para crear imágenes a partir de indicaciones de texto.

"Cuando añadimos aún más la supervisión del lenguaje, StableRep entrenado con 20 millones de imágenes sintéticas logra una mayor precisión que CLIP entrenado con 50 millones de imágenes reales", continúa el artículo.

Los algoritmos de aprendizaje automático capturan las relaciones entre las características de los objetos y el significado de las palabras como una serie de números. Al utilizar StableRep, los investigadores pueden controlar este proceso con más cuidado: entrenar un modelo en múltiples imágenes generadas por Stable Diffusion en el mismo mensaje. Significa que el modelo puede aprender representaciones visuales más diversas y puede ver qué imágenes coinciden más con las indicaciones que otras. 

Creo que tendremos un ecosistema de algunos modelos entrenados con datos reales, otros con datos sintéticos.

"Estamos enseñando al modelo a aprender más sobre conceptos de alto nivel a través del contexto y la variación, no solo alimentándolo con datos", dijo Lijie Fan, investigadora principal del estudio y estudiante de doctorado en ingeniería eléctrica en el MIT. explicado esta semana. "Cuando se utilizan varias imágenes, todas generadas a partir del mismo texto, todas tratadas como representaciones de lo mismo subyacente, el modelo profundiza en los conceptos detrás de las imágenes (por ejemplo, el objeto) no solo en sus píxeles".

Como se señaló anteriormente, este enfoque también significa que puede usar menos imágenes sintéticas para entrenar su red neuronal que las reales y obtener mejores resultados, lo que beneficia a todos los desarrolladores de IA.

Métodos como StableRep significan que algún día los modelos de texto a imagen podrán entrenarse con datos sintéticos. Permitiría a los desarrolladores depender menos de imágenes reales y podría ser necesario si los motores de IA agotan los recursos disponibles en línea.

"Creo que [entrenar modelos de IA en imágenes sintéticas] será cada vez más común", dijo Phillip Isola, coautor del artículo y profesor asociado de visión por computadora en el MIT. El registro. "Creo que tendremos un ecosistema de algunos modelos entrenados con datos reales, otros con datos sintéticos, y tal vez la mayoría de los modelos se entrenarán con ambos".

Es difícil confiar únicamente en imágenes generadas por IA porque su calidad y resolución suelen ser peores que las fotografías reales. Los modelos de texto a imagen que los generan también están limitados en otros aspectos. Stable Diffusion no siempre produce imágenes que sean fieles a las indicaciones de texto.

Isola advirtió que el uso de imágenes sintéticas tampoco evita el posible problema de infracción de derechos de autor, ya que los modelos que las generan probablemente fueron entrenados con materiales protegidos.

“Los datos sintéticos podrían incluir copias exactas de datos de derechos de autor. Sin embargo, los datos sintéticos también brindan nuevas oportunidades para solucionar problemas de propiedad intelectual y privacidad, porque potencialmente podemos intervenir en ellos editando el modelo generativo para eliminar atributos sensibles”, explicó.

El equipo también advirtió que los sistemas de entrenamiento sobre imágenes generadas por IA podrían potencialmente exacerbar los sesgos aprendidos por su modelo subyacente de texto a imagen. ®

Sello de tiempo:

Mas de El registro