Gen-3 Alpha, da Runway, é um novo modelo generativo de vídeos
Com o anúncio do modelo, a disputa segue aquecida entre as IAs generativas capazes de produzir vídeo a partir de prompts de texto.
Com o anúncio do modelo, a disputa segue aquecida entre as IAs generativas capazes de produzir vídeo a partir de prompts de texto.
Expandindo sobre seu predecessor, além de permitir gerar áudio com prompts de texto, a nova versão também permite usar prompts no formato de áudio, para maior controle do processo de geração.
Utilizando apenas 15 segundos de áudio como referência, o modelo é capaz de replicar a voz do interlocutor, transferindo para outros textos e até outros idiomas.
O modelo apresenta maior fidelidade ao prompt, capacidade ampliada de entender cenas complexas e melhor entendimento gramatical.
O Sora emprega uma arquitetura chamada de transformer de difusão para produzir vídeos de alta qualidade de até um minuto de duração, a partir de prompts de texto.
O modelo tem como grande novidade produzir sons e vozes, contextualizadas em um ambiente por exemplo, através de prompts de texto.
Apresentando melhorias significativas em relação ao seu antecessor, o Imagen 2, que já pode ser utilizado, emprega tecnologia de ponta para gerar imagens mais realistas.
Modelo de difusão latente oferece controle preciso e alta eficiência para inteligência artificial generativa de áudio.
A substituição da rede convolucional para processamento das imagens por um transformer gerou imagens mais realistas.
A empresa desenvolveu uma solução para que o jogador possa conversar de forma natural com os personagens do jogo usando a própria voz, aumentando a imersão e entregando uma experiência única para cada usuário.