Inteligência Artificial em Movimento: OpenAI abre Acesso ao Sora
OpenAI lança Sora, sua IA generativa que transforma texto em vídeos realistas, democratizando a criação de conteúdo digital.
OpenAI lança Sora, sua IA generativa que transforma texto em vídeos realistas, democratizando a criação de conteúdo digital.
Com o anúncio do modelo, a disputa segue aquecida entre as IAs generativas capazes de produzir vídeo a partir de prompts de texto.
Expandindo sobre seu predecessor, além de permitir gerar áudio com prompts de texto, a nova versão também permite usar prompts no formato de áudio, para maior controle do processo de geração.
Utilizando apenas 15 segundos de áudio como referência, o modelo é capaz de replicar a voz do interlocutor, transferindo para outros textos e até outros idiomas.
O modelo apresenta maior fidelidade ao prompt, capacidade ampliada de entender cenas complexas e melhor entendimento gramatical.
O Sora emprega uma arquitetura chamada de transformer de difusão para produzir vídeos de alta qualidade de até um minuto de duração, a partir de prompts de texto.
O modelo tem como grande novidade produzir sons e vozes, contextualizadas em um ambiente por exemplo, através de prompts de texto.
Apresentando melhorias significativas em relação ao seu antecessor, o Imagen 2, que já pode ser utilizado, emprega tecnologia de ponta para gerar imagens mais realistas.
Modelo de difusão latente oferece controle preciso e alta eficiência para inteligência artificial generativa de áudio.
A substituição da rede convolucional para processamento das imagens por um transformer gerou imagens mais realistas.