Jukebox é a IA que cria músicas de diferentes estilos musicais, incluindo letras e vocais

A OpenAI é uma empresa de pesquisa em inteligência artificial, fundada em 2015 e localizada em São Francisco, nos Estados Unidos. Desde seu lançamento, sua produção tem sido prolífica. No final de abril, eles anunciaram o último resultado produzido pelo seu time de desenvolvedores: Jukebox, uma rede neural capaz de gerar música, incluindo vocais rudimentares, em uma variedade de gêneros e estilos artísticos.

O Jukebox é uma evolução da MuseNet, uma ferramenta que também foi desenvolvida pela OpenAI para gerar música, mas sem a capacidade de produzir vocais. O novo sistema foi treinado com mais de 1,2 milhão de músicas, condicionadas às suas letras e metadados como nome do artista, estilo musical, ano de lançamento e valência emotiva. Como resultado, ele produz músicas no formato de áudio bruto, ou seja, não são produzidas partituras que outro software deve usar para produzir o som. Essa não é uma tarefa fácil, já que uma música típica pode ter até 10 milhões de passos temporais. Para comparação, os modelos atuais de processamento de linguagem natural trabalham com cerca de 1000 passos temporais. Dessa forma, o desenvolvimento do Jukebox precisou de um modelo capaz de processar dependências de alcance longo. A equipe decidiu usar um autoencoder no formato de rede neural convolucional para codificar os áudios originais em um espaço dimensional comprimido. Um modelo generativo dotado de transformers foi então treinado para produzir áudio, condicionado às letras geradas, nesse espaço comprimido, que depois pode ser reescalonado para o espaço do áudio bruto original.

Os estilos musicais que o Jukebox é capaz de reproduzir incluem reggae, country, pop, rock, jazz, blues e música clássica. Como cada estilo incluía, nos dados de treinamento, várias músicas de um mesmo artista, o software é até capaz de emular o estilo específico dos artistas. Algumas das produções originais do Jukebox, cobrindo vários gêneros e músicos, podem ser encontradas aqui.

Apesar do avanço que a ferramenta representa, ela ainda está longe de produzir músicas que possam se passar por produções humanas. Ainda que os trechos criados pela inteligência artificial tenham coerência musical local, padrões de acorde tradicionais e até mesmo solos, eles carecem de estruturas musicais maiores como refrões, e as etapas de compressão e descompressão dos dados produzem ruídos. Além disso, os modelos são lentos, levando até 9 horas para renderizar um minuto de áudio. Mas os desenvolvedores da OpenAI já estão trabalhando em melhorias, como o condicionamento do processo de criação a outras informações que possam servir como priming.

A empresa publicou um artigo explicando o desenvolvimento do Jukebox, e está disponibilizando o modelo treinado em formato open source.