Uma das aplicações recentes mais impressionantes no mundo da inteligência artificial foi o DALL-E, um modelo capaz de gerar imagens com alta qualidade a partir de prompts de texto, o que vem sendo chamado de geração T2I (text-to-image). Ao que tudo indica, esta área intermodal – que mistura canais de informação, como texto e imagem – está em pleno desenvolvido, já que esta semana, a Meta anunciou o Make-A-Video, uma IA que produz pequenos clipes de vídeo com prompts textuais (T2V – text-to-video).
A empresa diz que o modelo faz parte de seus esforços em pesquisa de tecnologia generativa, focada em abrir oportunidades para criadores e artistas, vindo na sequência do Make-A-Scene, uma IA do tipo T2I que dá ao usuário maior controle sobre o processo artístico ao aceitar, junto com o prompt de texto, um esboço simples para orientar o posicionamento de objetos. O Make-A-Video aprendeu como o mundo se parece com dados paralelos contendo imagens e sua descrição no formato de texto, e como o mundo se move a partir de vídeos não rotulados. Esta abordagem permitiu acelerar o treinamento do modelo já que ele não precisa aprender representações visuais e multimodais do zero. O uso de vídeos sem rótulo também é uma vantagem, já que sua disponibilidade é mais limitada. Em termos de arquitetura, o Make-A-Video expande as capacidades dos modelos T2I incorporando novos e eficientes módulos espaço-temporais. Todos os dados utilizados para treinar o modelo são públicos, o que ajuda a empresa a implementar sua política de transparência no desenvolvimento de IA.
Alguns exemplos de produções do Make-A-Video podem ser vistos abaixo; outros exemplos estão disponíveis na página do projeto.
Além de produzir vídeos a partir de texto, o sistema também pode criar vídeos a partir de imagens estáticas, ou então usar um vídeo como inspiração para a geração de clipes similares. Nesses dois últimos casos, o modelo primeiro identifica os elementos presentes para então sugerir mudanças ou adicionar movimento.
Um artigo apresentando os detalhes técnicos do sistema pode ser acessado aqui.
Isso realmente e´ incrivel