Google lança Dreamix, editor de vídeo com inteligência artificial, para criar e editar vídeos e animar imagens

Google lança Dreamix, editor de vídeo com inteligência artificial, para criar e editar vídeos e animar imagens

Nó Fonte: 1953261

Enquanto o OpenAI ChatGPT está sugando todo o oxigênio do ciclo de notícias de 24 horas, o Google revelou discretamente um novo modelo de IA que pode gerar vídeos quando recebe entradas de vídeo, imagem e texto. O novo editor de vídeo Google Dreamix AI agora aproxima o vídeo gerado da realidade.

De acordo com a pesquisa publicada no GitHub, Dreamix edita o vídeo com base em um vídeo e um prompt de texto. O vídeo resultante mantém sua fidelidade à cor, postura, tamanho do objeto e pose da câmera, resultando em um vídeo temporalmente consistente. No momento, o Dreamix não pode gerar vídeos apenas a partir de um prompt, no entanto, pode pegar o material existente e modificar o vídeo usando prompts de texto.

O Google usa modelos de difusão de vídeo para o Dreamix, uma abordagem que foi aplicada com sucesso na maioria das edições de imagens de vídeo que vemos em AIs de imagem, como DALL-E2 ou Stable Diffusion de código aberto.

A abordagem envolve reduzir fortemente o vídeo de entrada, adicionar ruído artificial e, em seguida, processá-lo em um modelo de difusão de vídeo, que usa um prompt de texto para gerar um novo vídeo a partir dele que retém algumas propriedades do vídeo original e renderiza outras de acordo à entrada de texto.

O modelo de difusão de vídeo oferece um futuro promissor que pode inaugurar uma nova era para trabalhar com vídeos.

Por exemplo, no vídeo abaixo, Dreamix transforma o macaco comedor (esquerda) em um urso dançante (direita) ao receber o prompt “Um urso dançando e pulando ao som de uma música animada, movendo todo o seu corpo”.

Em outro exemplo abaixo, o Dreamix usa uma única foto como modelo (como na imagem para vídeo) e um objeto é então animado a partir dela em um vídeo por meio de um prompt. Os movimentos da câmera também são possíveis na nova cena ou em uma gravação subsequente em lapso de tempo.

Em outro exemplo, Dreamix transforma o orangotango em uma piscina de água (esquerda) em um orangotango de cabelo laranja tomando banho em um lindo banheiro.

“Embora os modelos de difusão tenham sido aplicados com sucesso para edição de imagens, poucos trabalhos o fizeram para edição de vídeo. Apresentamos o primeiro método baseado em difusão que é capaz de realizar edição de movimento e aparência baseada em texto de vídeos em geral.”

De acordo com o artigo de pesquisa do Google, o Dreamix usa um modelo de difusão de vídeo para combinar, no momento da inferência, as informações espaço-temporais de baixa resolução do vídeo original com novas informações de alta resolução que ele sintetizou para alinhar com o prompt do texto de orientação.

O Google disse que adotou essa abordagem porque “para obter alta fidelidade ao vídeo original, é necessário reter algumas de suas informações de alta resolução. Adicionamos um estágio preliminar de ajuste fino do modelo no vídeo original, aumentando significativamente a fidelidade”.

Abaixo está uma visão geral em vídeo de como o Dreamix funciona.

[Conteúdo incorporado]

Como funcionam os modelos de difusão de vídeo Dreamix

De acordo com o Google, o ajuste fino do modelo de difusão de vídeo do Dreamix apenas no vídeo de entrada limita a extensão da mudança de movimento. Em vez disso, usamos uma objetiva mista que, além da objetiva original (canto inferior esquerdo), também faz ajustes finos no conjunto não ordenado de quadros. Isso é feito usando “atenção temporal mascarada”, evitando que a atenção temporal e a convolução sejam ajustadas (canto inferior direito). Isso permite adicionar movimento a um vídeo estático.

“Nosso método oferece suporte a vários aplicativos por meio de pré-processamento dependente do aplicativo (esquerda), convertendo o conteúdo de entrada em um formato de vídeo uniforme. Para imagem para vídeo, a imagem de entrada é duplicada e transformada usando transformações de perspectiva, sintetizando um vídeo grosseiro com algum movimento de câmera. Para geração de vídeo baseada no assunto, a entrada é omitida – apenas o ajuste fino cuida da fidelidade. Este vídeo grosseiro é então editado usando nosso “Dreamix Video Editor” geral (à direita): primeiro corrompemos o vídeo diminuindo a resolução e depois adicionando ruído. Em seguida, aplicamos o modelo de difusão de vídeo guiado por texto ajustado, que aprimora o vídeo para a resolução espaço-temporal final”, escreveu Dream em GitHub.

Você pode ler o artigo de pesquisa abaixo.

Google Dreamix

Carimbo de hora:

Mais de TechStartups