A Stability.AI apresentou recentemente o Stable Audio 2.0, seu novo modelo de inteligência artificial para geração de áudio. Essa ferramenta poderosa pode gerar música de alta qualidade, incluindo músicas completas de até três minutos de duração.
O desenvolvimento do Stable Audio 2.0 envolveu o treinamento do modelo em um vasto conjunto de dados de música licenciada pela AudioSparx, compreendendo mais de 800 mil arquivos de áudio contendo música, efeitos sonoros e sequências de um único instrumento, junto com os metadados correspondentes. Esse extenso processo de treinamento equipou o modelo com a capacidade de entender e replicar uma ampla variedade de estilos e gêneros musicais.
Assim como seu predecessor, o Stable Audio 2.0 permite a geração de áudio baseada em prompt de texto. Os usuários podem simplesmente fornecer uma descrição em linguagem natural da música desejada, especificando aspectos como gênero, humor, instrumentos e até mesmo temas líricos. Mas a nova versão também introduz uma novidade: o modelo possui uma capacidade inovadora de geração de áudio para áudio. Aqui, os usuários carregam suas próprias amostras de áudio, que podem ser desde uma única melodia até uma composição complexa. O Stable Audio 2.0 então analisa essa amostra e utiliza as informações para gerar variações, remixes ou elementos musicais inteiramente novos que complementam perfeitamente o áudio carregado. Esses recursos capacitam os criadores com um nível sem precedentes de controle e flexibilidade no processo de geração musical.
Do lado da engenharia do modelo, o Stable Audio 2.0 utiliza uma arquitetura poderosa conhecida como modelo de difusão latente. Este modelo consiste em dois componentes principais que trabalham em conjunto para gerar peças musicais coerentes: um autoencoder altamente compactado e um transformer de difusão (DiT). O autoencoder desempenha um papel crucial na transformação de formas de onda de áudio bruto em uma representação mais concisa. Esse formato compactado permite ao modelo processar informações com mais eficiência. O componente DiT assume o controle a partir daí, refinando iterativamente um ruído aleatório em dados de áudio estruturados. Através desse processo, o DiT identifica padrões e relacionamentos complexos dentro dos dados, construindo progressivamente uma compreensão mais intrincada e precisa da saída de áudio desejada. Ao combinar esses dois elementos, o Stable Audio 2.0 é capaz de lidar com sequências de áudio mais longas e produzir versões com mais nuance e mais fiéis ao material de origem.
Com o Stable Audio 2.0, os usuários podem experimentar a geração de novas ideias musicais, aprimorar amostras existentes ou simplesmente explorar o potencial ilimitado da criação musical baseada em IA. O sistema pode ser testado gratuitamente no site oficial do projeto.