IA prevê rosto de pessoas com base em sua voz

Quando nós ouvimos uma voz desconhecida no rádio, no telefone ou em um programa de podcast, muitas vezes intuitivamente imaginamos como a pessoa deve se parecer. A princípio podemos pressupor que não existe uma relação direta entre a voz e a aparência das pessoas, mas seria este o caso, ou nossa intuição realmente está encontrando padrões inconscientes para nos ajudar a interagir com o mundo?

Pesquisadores do Instituto de Tecnologia de Massachusetts (MIT), nos Estados Unidos, tentaram responder esta pergunta com inteligência artificial. A ideia é relativamente simples: treinar um modelo com pares de vozes e imagens, e testar como ele se sai tentando reconstruir a aparência das pessoas baseado apenas na voz. O sistema, convenientemente batizado de Speech2Face, foi treinado com milhões de clipes do YouTube, representando mais de 100 mil pessoas diferentes. Ao invés de gerar uma imagem nova da pessoa a partir do sinal de áudio, o sistema compara a voz com outros registros parecidos para os quais ele conhece o rosto, e assim estima como a nova pessoa deve se parecer.

Alguns resultados são bastante óbvios. O modelo foi capaz, por exemplo, de acertar o gênero da pessoa em 94% das vezes, e também teve uma correlação alta na avaliação de idade. Para etnia, as maiores correlações foram para pessoas caucasianas e asiáticas, tendo resultados menos precisos para negros e indianos. Mas para além de atributos demográficos, o modelo também conseguiu descobrir correlações entre a fala e o formato da mandíbula, mostrando que o desenvolvimento pode encontrar utilidade nos estudos de conexão entre anatomia e fala.

Em uma última etapa, os pesquisadores ainda combinaram o Speech2Face com o aplicativo de emojis personalizados do Google, criando avatares animados para o interlocutor.

Imagem original, imagem reconstruída pelo Speech2Face, e avatar criado com base na voz. Créditos: autores.

Os autores consideram que este trabalho comprova a existência de informação biométrica compartilhada entre os modais vocal e facial, o que foi sugerido em estudos anteriores.

Outros exemplos de desempenho do modelo, e os detalhes do trabalho, podem ser acessados aqui.

Deixe um comentário

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.