Make-A-Video, a IA da Meta que produz clipes a partir de texto

Uma das aplicações recentes mais impressionantes no mundo da inteligência artificial foi o DALL-E, um modelo capaz de gerar imagens com alta qualidade a partir de prompts de texto, o que vem sendo chamado de geração T2I (text-to-image). Ao que tudo indica, esta área intermodal – que mistura canais de informação, como texto e imagem – está em pleno desenvolvido, já que esta semana, a Meta anunciou o Make-A-Video, uma IA que produz pequenos clipes de vídeo com prompts textuais (T2V – text-to-video).

A empresa diz que o modelo faz parte de seus esforços em pesquisa de tecnologia generativa, focada em abrir oportunidades para criadores e artistas, vindo na sequência do Make-A-Scene, uma IA do tipo T2I que dá ao usuário maior controle sobre o processo artístico ao aceitar, junto com o prompt de texto, um esboço simples para orientar o posicionamento de objetos. O Make-A-Video aprendeu como o mundo se parece com dados paralelos contendo imagens e sua descrição no formato de texto, e como o mundo se move a partir de vídeos não rotulados. Esta abordagem permitiu acelerar o treinamento do modelo já que ele não precisa aprender representações visuais e multimodais do zero. O uso de vídeos sem rótulo também é uma vantagem, já que sua disponibilidade é mais limitada. Em termos de arquitetura, o Make-A-Video expande as capacidades dos modelos T2I incorporando novos e eficientes módulos espaço-temporais. Todos os dados utilizados para treinar o modelo são públicos, o que ajuda a empresa a implementar sua política de transparência no desenvolvimento de IA.

Alguns exemplos de produções do Make-A-Video podem ser vistos abaixo; outros exemplos estão disponíveis na página do projeto.

Os prompts usados foram: um cão usando capa de super-herói voando pelo céu; uma nave espacial pousando em Marte; close-up do pincel de um artista pintando uma tela; um cavalo bebendo água. Créditos: Meta.

Além de produzir vídeos a partir de texto, o sistema também pode criar vídeos a partir de imagens estáticas, ou então usar um vídeo como inspiração para a geração de clipes similares. Nesses dois últimos casos, o modelo primeiro identifica os elementos presentes para então sugerir mudanças ou adicionar movimento.

Um artigo apresentando os detalhes técnicos do sistema pode ser acessado aqui.

1 comentário em “Make-A-Video, a IA da Meta que produz clipes a partir de texto”

Deixe um comentário

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.