Stable Audio: modelo de difusão para geração de áudio com máximo controle

Os modelos generativos para produção de material áudio-visual tiveram avanços significativos com a introdução dos modelos de difusão baseados em estados latentes. Essas inovações melhoraram consideravelmente a qualidade e o controle sobre o conteúdo gerado em imagens, vídeos e áudios. Os modelos de difusão latente, que operam no espaço de codificação de um autoencoder pré-treinado, têm desempenhado um papel crucial nesse avanço.

No entanto, a geração de áudio com esses modelos enfrenta desafios particulares, uma vez que eles geralmente são treinados para gerar saídas de tamanho fixo. Isso significa que um modelo de áudio, por exemplo, pode gerar apenas segmentos de áudio com um tamanho predeterminado. Essa limitação torna-se problemática ao tentar gerar áudio de comprimentos variados, como músicas completas.

Para superar esse obstáculo, a Stability AI apresentou o Stable Audio, um modelo de difusão latente inovador. Ele não apenas considera os dados de áudio, mas também metadados importantes, como descrições de texto, duração do arquivo de áudio e horário de início. Isso permite aos usuários controlar precisamente o conteúdo e a duração do áudio gerado.

Uma característica notável do Stable Audio é o uso de representações latentes altamente compactadas, o que acelera significativamente os tempos de inferência em comparação com o uso de áudio bruto. Isso é possível graças às mais recentes técnicas de amostragem de difusão. Além disso, o Stable Audio combina um Variational Autoencoder (VAE), codificação de texto e informações de tempo, permitindo que os usuários gerem áudio de duração específica.

O modelo de difusão central do Stable Audio é um U-Net com 907 milhões de parâmetros, equipado com camadas residuais, camadas de autoatenção e camadas de atenção cruzada para remover o ruído do áudio de entrada com base nas informações de texto e tempo. Para treinar esse modelo, foi utilizado um conjunto de dados extenso com mais de 800.000 arquivos de áudio e metadados correspondentes.

O Stable Audio representa uma inovação de destaque na pesquisa de áudio generativo, impulsionada pelo laboratório de pesquisa de áudio generativo da Stability AI, o Harmonai. Alguns exemplos de áudio gerado pelo modelo podem ser ouvidos na página do projeto. O laboratório pretende disponibilizar o código em formato aberto.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.