Modelos de texto para imagem aprendem de forma mais eficiente com dados falsos

Modelos de texto para imagem aprendem de forma mais eficiente com dados falsos

Nó Fonte: 2974582

Imagens sintéticas podem ajudar os modelos de IA a aprender representações visuais com mais precisão em comparação com instantâneos reais, de acordo com cientistas da computação do MIT e do Google. O resultado são redes neurais que são melhores na criação de imagens a partir de descrições escritas.

No centro de todos os modelos de texto para imagem está a capacidade de mapear objetos em palavras. Dado um prompt de texto de entrada – como “uma criança segurando um balão vermelho em um dia ensolarado”, por exemplo – eles devem retornar uma imagem que se aproxime da descrição. Para fazer isso, eles precisam aprender as representações visuais de como seriam uma criança, um balão vermelho e um dia ensolarado. 

A equipe do MIT-Google acredita que as redes neurais podem gerar imagens mais precisas a partir de prompts após serem treinadas em imagens feitas por IA, em vez de usar instantâneos reais. Para demonstrar isso, o grupo desenvolveu Representante Estável, que aprende como transformar legendas escritas descritivas em imagens correspondentes corretas a partir de imagens geradas pelo popular modelo de texto para imagem de código aberto Stable Diffusion.

Em outras palavras: usar um modelo de IA treinado e estabelecido para ensinar outros modelos.

Como o artigo pré-impresso dos cientistas, divulgado via arXiv no final do mês passado, afirma: “Com imagens exclusivamente sintéticas, as representações aprendidas pelo StableRep superam o desempenho das representações aprendidas pelo SimCLR e CLIP usando o mesmo conjunto de prompts de texto e imagens reais correspondentes, em conjuntos de dados de grande escala.” SimCLR e CLIP são algoritmos de aprendizado de máquina que podem ser usados ​​para criar imagens a partir de prompts de texto.

“Quando adicionamos ainda mais supervisão de linguagem, o StableRep treinado com 20 milhões de imagens sintéticas alcança melhor precisão do que o CLIP treinado com 50 milhões de imagens reais”, continua o artigo.

Algoritmos de aprendizado de máquina capturam as relações entre as características dos objetos e os significados das palavras como uma matriz de números. Ao usar o StableRep, os pesquisadores podem controlar esse processo com mais cuidado – treinando um modelo em várias imagens geradas pelo Stable Diffusion no mesmo prompt. Isso significa que o modelo pode aprender representações visuais mais diversas e ver quais imagens correspondem mais aos prompts do que outras. 

Acho que teremos um ecossistema de alguns modelos treinados em dados reais, outros em dados sintéticos.

“Estamos ensinando o modelo a aprender mais sobre conceitos de alto nível por meio do contexto e da variância, e não apenas alimentando-o com dados”, disse Lijie Fan, pesquisadora principal do estudo e estudante de doutorado em engenharia elétrica no MIT. explicado essa semana. “Ao usar múltiplas imagens, todas geradas a partir do mesmo texto, todas tratadas como representações da mesma coisa subjacente, o modelo se aprofunda nos conceitos por trás das imagens – digamos, o objeto – e não apenas em seus pixels.”

Conforme observado acima, essa abordagem também significa que você pode usar menos imagens sintéticas para treinar sua rede neural do que imagens reais e obter melhores resultados – o que é vantajoso para os desenvolvedores de IA.

Métodos como StableRep significam que os modelos de texto para imagem poderão um dia ser treinados em dados sintéticos. Isso permitiria que os desenvolvedores confiassem menos em imagens reais e pode ser necessário se os mecanismos de IA esgotarem os recursos online disponíveis.

“Acho que [o treinamento de modelos de IA em imagens sintéticas] será cada vez mais comum”, disse Phillip Isola, coautor do artigo e professor associado de visão computacional no MIT. O registro. “Acho que teremos um ecossistema de alguns modelos treinados em dados reais, alguns em dados sintéticos, e talvez a maioria dos modelos seja treinada em ambos.”

É difícil confiar apenas em imagens geradas por IA porque a sua qualidade e resolução são muitas vezes piores do que as fotografias reais. Os modelos de texto para imagem que os geram também são limitados de outras maneiras. A difusão estável nem sempre produz imagens fiéis às instruções de texto.

Isola alertou que o uso de imagens sintéticas também não evita o problema potencial de violação de direitos autorais, uma vez que os modelos que as geraram provavelmente foram treinados em materiais protegidos.

“Os dados sintéticos podem incluir cópias exatas de dados de direitos autorais. No entanto, os dados sintéticos também oferecem novas oportunidades para contornar questões de PI e privacidade, porque podemos potencialmente intervir sobre eles, editando o modelo generativo para remover atributos sensíveis”, explicou.

A equipe também alertou que os sistemas de treinamento em imagens geradas por IA poderiam potencialmente exacerbar os preconceitos aprendidos pelo modelo subjacente de texto para imagem. ®

Carimbo de hora:

Mais de O registro