AudioML é a IA que cria sons a partir de um prompt sonoro

A geração de texto com inteligência artificial está se tornando cada vez mais disseminada, com modelos como o GPT-3, o T5 e o PaLM sendo alguns dos exemplos mais proeminentes. Mais recentemente, foram os modelos capazes de gerar imagens a partir de prompts de texto que ganharam notoriedade, como o DALL-E e o Stable Diffusion. Agora, parece que é o processamento de áudio que está ganhando tração. Pesquisadores do Google anunciaram o lançamento do AudioLM, um sistema que dá continuidade a uma sequência sonora a partir de um curto prompt.

O maior diferencial do AudioLM para as ferramentas anteriores de geração de áudio com IA é que ele não precisa de transcrições para treinar, se baseando exclusivamente nos dados sonoros. Os dados são comprimidos em pequenos clipes de som, que para manter a convenção criada pela área de processamento de linguagem natural, também são chamados de tokens, os quais são utilizados por um modelo de NLP para aprender os padrões sonoros e como eles se interconectam de forma natural. Na etapa de inferência, o modelo recebe um clipe sonoro com poucos segundos de duração, predizendo qual token sonoro é o mais provável na sequência, mais uma vez de forma análoga aos modelos de linguagem. O resultado é uma sequência que dá continuidade ao discurso iniciado pelo prompt, mantendo o sotaque e a cadência original, e se sobressaindo aos modelos anteriores em questão de naturalidade nas pausas e exclamações, por exemplo.

O AudioML é capaz de gerar até sons complexos como várias pessoas conversando ou música de piano. Aliás, alguns pesquisadores avaliam que a habilidade do modelo para produção de música é superior a outras ferramentas especializadas, mantendo maior coerência musical.

Neste estágio, o AudioML ainda não é capaz de produzir texto como seus primos da área de NLP, ou seja, os clipes de áudio não fazem sentido semântico, mas é só questão de tempo até que os dois campos de pesquisa convirjam para a geração de uma ferramenta mais completa. A expectativa é que um sistema assim possa ser utilizado para gerar música e som ambiente para vídeos ou apresentações, por exemplo, e na criação de tecnologias assistivas como bots, ligadas à acessibilidade.

Alguns exemplos desta técnica impressionante podem ser visualizados na página dedicada ao projeto.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.