Além de sua aplicação mais prática, os modelos generativos começaram uma revolução na arte produzida por inteligência artificial. Muitos usuários já têm explorado com sucesso seu emprego na geração de texto, imagens e vídeos. Entretanto, a geração de áudio com esta tecnologia encontra-se relativamente atrasada. As soluções existentes são complicadas ou não estão disponíveis em formato open source.
Na semana passada, a Meta apresentou sua solução para preencher esta lacuna, a família de modelos AudioCraft. O objetivo é gerar, a partir de um prompt textual, trechos realistas de áudio ou música, de alta qualidade, que podem servir, por exemplo, na fase de pesquisa de um projeto musical, ou como trilha sonora de um jogo ou um vídeo promocional.
Gerar áudio de alta qualidade é uma tarefa complicada dada a alta variedade e variabilidade dos dados. Músicas são ainda mais desafiadoras, contendo padrões locais e de longo alcance, em sequências relativamente longas. Por isso, as soluções de inteligência artificial apresentadas até o modelo usavam representações simbólicas como arquivos MIDI ou rolos de piano, uma abordagem evidentemente limitada. O sistema AudioCraft emprega avanços recentes na área, como o aprendizado de representação de áudio auto-supervisionado e uma série de modelos hierárquicos, que fazem uso do áudio bruto para aprender estruturas sonoras em diferentes níveis.
O sistema AudioCraft é composto por três modelos: o MusicGen, para gerar músicas, o AudioGen, que gera efeitos sonoros, e o Encodec, que é um encoder/decoder para a conversão de áudio com alta qualidade. Na fase de treinamento, a porção encoder do Encodec é responsável por representar a entrada de áudio na forma de tokens sonoros, que são relacionados ao prompt de texto também representado em um espaço latente. O decoder do Encodec é quem aprende a reconstruir o áudio original dados os dois inputs iniciais. Assim, em modo de inferência, o sistema pode prever o próximo token sonoro a partir de um prompt de texto, e construir o áudio desejado pelo usuário.
Alguns exemplos das produções do AudioCraft podem ser checados na página do projeto. Os pesquisadores também disponibilizaram o artigo e o código para consulta. Os modelos estão disponíveis para pesquisadores e para usuários interessados em aprender como a tecnologia funciona.