IA do Google separa um som específico a partir de áudio com ruído

Em relação à inteligência artificial para processamento de informação que pode ser captada pelos nossos sentidos, os algoritmos desenvolvidos para processar imagens estão num estágio avançado, principalmente em comparação com os métodos que focam em dados de outra natureza. Dando um passo importante no processamento de informação sonora, pesquisadores do Google publicaram, no início do mês, um trabalho detalhando o desenvolvimento do algoritmo SoundFilter. O modelo é capaz de separar um som específico a partir de áudio sujo monocanal, usando para isso uma única amostra curta do som alvo. Este tipo de aprendizagem é chamado de one-shot, onde o modelo tem apenas uma instância disponível para treinamento.

O algoritmo tem a arquitetura de uma rede neural do tipo “onda-para-onda” (wave-to-wave), que é capaz de utilizar dados no formato de áudio não rotulado. Ele recebe para treinamento um clipe de áudio contendo o som limpo que se deseja obter, um clipe contendo um áudio condicionante, que contém som produzido pelo mesmo objeto ou atividade alvo, mas em outra circunstância, e o arquivo com som misturado. A rede trabalha produzindo embeddings do som alvo através de um módulo encoder, e um módulo gerador usa os embeddings para reproduzir o som alvo a partir do áudio misturado. Os pesquisadores testaram a abordagem em dois datasets públicos: o FSD50L, que contém mais de 50 mil sons, e o LibriSpeech, que contém cerca de 1000 horas de discursos em inglês. O desempenho pode ser verificado no link. Os pesquisadores acham possível que o SoundFilter alcance um desempenho ainda melhor se treinado com acesso a mais dados (many-shot).

O trabalho tem aplicação potencial imediata no processamento de vídeos, principalmente numa época onde grande parte das interações entre as pessoas ocorre através da internet. A própria empresa tem um algoritmo de cancelamento de barulho em operação no Google Meet. Os pesquisadores ainda acreditam que os embeddings gerados pelo algoritmo podem ser usados como representações em outros algoritmos classificadores de eventos sonoros, já que os embeddings de sons produzidos por fontes similares formam clusters em uma representação cartesiana.