IA consegue isolar sons de instrumentos musicais iguais acompanhando os movimentos dos artistas

Quando estamos assistindo a uma performance de um grupo de músicos, nem sempre é trivial reconhecer qual instrumento está produzindo cada som apenas de ouvido, mas geralmente nós conseguimos identificar a fonte da música prestando atenção também nos movimentos corporais e, claro, nos dedos, de quem está tocando. O estímulo visual mais o sonoro nos permite reconhecer a origem de cada faixa musical.

O laboratório de Inteligência Artificial MIT-IBM Watson (MIT-IBM Watson AI Lab), da Universidade de Massachusetts, acaba de apresentar uma ferramenta que usa inteligência artificial não só para identificar o instrumento que produz cada som em uma composição musical, mas também para separar o som produzido dos demais. O algoritmo, batizado de Music Gesture, usa uma representação estruturada baseada nos chamados pontos-chaves do esqueleto para modelar os movimentos do corpo e dos dedos durante uma performance musical. Uma rede de grafos é responsável por integrar o contexto semântico visual com a dinâmica corporal, que depois é associado com o sinal de áudio correspondente através de um modelo de fusão audiovisual. Dessa forma, a ferramenta consegue entender exatamente como cada movimento se relaciona com os sons correspondentes, e assim é capaz de identificar de qual instrumento vem cada melodia.

O Music Gesture foi primeiro avaliado na separação de sons gerados por instrumentos diferentes, mostrando ser melhor que os métodos atualmente disponíveis, e depois separando sons produzidos por instrumentos iguais – piano, flauta e trompete -, tarefa que é difícil até para pessoas realizarem. A performance da inteligência artificial pode ser conferida no vídeo abaixo divulgado pela equipe de pesquisadores.

Créditos: Autores.

A ferramenta deve encontrar aplicação na mixagem de som, já que torna possível editar trilhas mesmo quando elas não são gravadas separadamente.

O Music Gesture é um exemplo de inteligência artificial que usa múltiplas modalidades sensoriais, o que pode permitir a um modelo aprender mais rápido, com menos dados, e sem supervisão. Essa é uma forma de aprendizagem mais próxima daquela dos humanos, e deve tornar possível a implementação de tarefas mais complexas. Veículos autônomos dotados de tecnologia similar poderão, por exemplo, inferir condições do ambiente a partir de sensores sonoros, o que será útil em condições de baixa visibilidade.