IA sonoplasta produz sons para vídeos mudos

Durante a produção de filmes, é comum que sons ambientes sejam adicionados na pós-produção. Este processo de sonoplastia é realizado em estúdio, com o objetivo de tornar os sons mais claros ou mais destacados, aumentando a imersão do espectador. Cabe ao artista responsável escolher os materiais que vão gerar as melhores representações sonoras para passos, burburinhos, motores, chuva ou pássaros cantando, por exemplo, sempre alinhado com as intenções do diretor. Mas a partir de um trabalho publicado este ano por pesquisadores da Universidade do Texas, já é possível realizar esta tarefa de forma automatizada, usando inteligência artificial. Eles desenvolveram um modelo capaz de processar trechos de vídeo, entender o contexto das imagens, escolher o tipo de som adequado e sintetizar este som de forma sincronizada com as imagens.

O trabalho iniciou com a construção de um dataset contendo 1000 clipes curtos de vídeo, de duração média de 5 segundos, representando eventos que são comumente tratados na sonoplastia, como relógio, fogo, passos, tiro de arma, chuva, e as ações de quebrar, cortar e digitar. A primeira tarefa que o algoritmo deveria realizar era classificar o vídeo de acordo com essas categorias. Para isso, duas abordagens foram adotadas. Na primeira, chamada de rede de sequência de frame (FSLSTM, frame sequence network), cada frame é alimentado ao modelo, que produz então interpolações para aumentar a granularidade informacional. Os frames e as interpolações são tratados pelo modelo ResNet-50, uma rede neural convolucional que produz características de imagens. Estas características então passam por uma rede neural recorrente, chamada de Fast-Slow LSTM, para reconhecer a categoria original. Na segunda abordagem, chamada de rede de relações de frame (FRN, frame relation network), os frames são analisados espaçadamente, com um intervalo variável entre si, e todas as características obtidas dessa forma são combinadas usando uma rede neural densa. Desta forma, há menor impacto computacional.

Para a geração dos sons correspondentes às categorias identificadas, os cientistas usaram o método chamado de transformação inversa de Fourier de tempo curto. Neste caso, primeiro se calcula o espectrograma médio de todos os sons para cada categoria tratada. A rede neural então produz o som predizendo o “delta”, ou seja, o desvio da média, para cada ponto de inserção de áudio.

A forma mais relevante, do ponto de vista prático, para a avaliação do desempenho do algoritmo, foi uma avaliação qualitativa humana, onde pessoas deveriam comparar o som original e o som sintetizado e escolher aquele mais realista, o mais adequado, o com menos ruído, e o mais sincronizado. No caso do modelo adotando a primeira abordagem, os avaliadores preferiram o som sintético em 74% dos casos, e no caso da segunda, em 66%. Como o trabalho do sonoplasta trata, de certa forma, de produzir experiências sonoras melhores que as originais, pode-se concluir que o modelo está realizando um bom trabalho.

Nos vídeos abaixo, é possível verificar o resultado para um clipe de madeira pegando fogo, de um cavalo cavalgando, e de chuva caindo em folhagem.