Les modèles texte-image apprennent plus efficacement avec de fausses données

Les modèles texte-image apprennent plus efficacement avec de fausses données

Nœud source: 2974582

Les images synthétiques peuvent aider les modèles d'IA à apprendre les représentations visuelles avec plus de précision que les instantanés réels, selon les informaticiens du MIT et de Google. Le résultat est des réseaux de neurones qui sont plus efficaces pour créer des images à partir de vos descriptions écrites.

Au cœur de tous les modèles de conversion texte-image se trouve leur capacité à mapper des objets à des mots. Étant donné une invite de saisie de texte – comme « un enfant tenant un ballon rouge par une journée ensoleillée », par exemple – ils doivent renvoyer une image se rapprochant de la description. Pour ce faire, ils doivent apprendre les représentations visuelles de ce à quoi pourraient ressembler un enfant, un ballon rouge et une journée ensoleillée. 

L'équipe du MIT-Google estime que les réseaux neuronaux peuvent générer des images plus précises à partir d'invites après avoir été formés sur des images créées par l'IA, plutôt que d'utiliser de véritables instantanés. Pour le démontrer, le groupe a développé StableRep, qui apprend à transformer des légendes écrites descriptives en images correspondantes correctes à partir d'images générées par le modèle texte-image open source populaire Stable Diffusion.

En d’autres termes : utiliser un modèle d’IA établi et formé pour enseigner à d’autres modèles.

Comme le pré-imprime les scientifiques, publié via arXiv à la fin du mois dernier, le dit : « Avec uniquement des images synthétiques, les représentations apprises par StableRep surpassent les performances des représentations apprises par SimCLR et CLIP en utilisant le même ensemble d'invites textuelles et d'images réelles correspondantes, sur des ensembles de données à grande échelle. » SimCLR et CLIP sont des algorithmes d'apprentissage automatique qui peuvent être utilisés pour créer des images à partir d'invites textuelles.

"Lorsque nous ajoutons davantage la supervision du langage, StableRep formé avec 20 millions d'images synthétiques atteint une meilleure précision que CLIP formé avec 50 millions d'images réelles", poursuit le document.

Les algorithmes d’apprentissage automatique capturent les relations entre les caractéristiques des objets et la signification des mots sous la forme d’un tableau de nombres. En utilisant StableRep, les chercheurs peuvent contrôler ce processus avec plus de soin – en entraînant un modèle sur plusieurs images générées par Stable Diffusion à la même invite. Cela signifie que le modèle peut apprendre des représentations visuelles plus diverses et voir quelles images correspondent plus étroitement aux invites que d’autres. 

Je pense que nous aurons un écosystème composé de certains modèles formés sur des données réelles, d'autres sur des données synthétiques.

"Nous enseignons le modèle pour en apprendre davantage sur les concepts de haut niveau à travers le contexte et la variance, et pas seulement pour lui fournir des données", Lijie Fan, chercheuse principale de l'étude et doctorante en génie électrique au MIT, expliqué cette semaine. "Lorsque vous utilisez plusieurs images, toutes générées à partir du même texte, toutes traitées comme des représentations de la même chose sous-jacente, le modèle approfondit les concepts derrière les images - par exemple l'objet - et pas seulement leurs pixels."

Comme indiqué ci-dessus, cette approche signifie également que vous pouvez utiliser moins d'images synthétiques que d'images réelles pour entraîner votre réseau neuronal, et obtenir de meilleurs résultats, ce qui est gagnant-gagnant pour les développeurs d'IA.

Des méthodes comme StableRep signifient que les modèles texte-image pourraient un jour être formés sur des données synthétiques. Cela permettrait aux développeurs de moins s’appuyer sur des images réelles et pourrait s’avérer nécessaire si les moteurs d’IA épuisent les ressources en ligne disponibles.

"Je pense que [la formation de modèles d'IA sur des images synthétiques] sera de plus en plus courante", a déclaré Phillip Isola, co-auteur de l'article et professeur agrégé de vision par ordinateur au MIT. Le registre. "Je pense que nous aurons un écosystème composé de certains modèles formés sur des données réelles, d'autres sur des données synthétiques, et peut-être que la plupart des modèles seront formés sur les deux."

Il est difficile de se fier uniquement aux images générées par l’IA, car leur qualité et leur résolution sont souvent pires que celles des vraies photographies. Les modèles de conversion texte-image qui les génèrent sont également limités à d’autres égards. La diffusion stable ne produit pas toujours des images fidèles aux invites textuelles.

Isola a averti que l'utilisation d'images synthétiques n'évite pas non plus le problème potentiel de violation du droit d'auteur, puisque les modèles qui les génèrent ont probablement été formés sur des matériaux protégés.

« Les données synthétiques pourraient inclure des copies exactes des données de droits d’auteur. Cependant, les données synthétiques offrent également de nouvelles opportunités pour contourner les problèmes de propriété intellectuelle et de confidentialité, car nous pouvons potentiellement intervenir là-dessus, en modifiant le modèle génératif pour supprimer les attributs sensibles », a-t-il expliqué.

L’équipe a également averti que les systèmes de formation sur les images générées par l’IA pourraient potentiellement exacerber les biais appris par leur modèle texte-image sous-jacent. ®

Horodatage:

Plus de Le registre