Quando nós ouvimos uma voz desconhecida no rádio, no telefone ou em um programa de podcast, muitas vezes intuitivamente imaginamos como a pessoa deve se parecer. A princípio podemos pressupor que não existe uma relação direta entre a voz e a aparência das pessoas, mas seria este o caso, ou nossa intuição realmente está encontrando padrões inconscientes para nos ajudar a interagir com o mundo?
Pesquisadores do Instituto de Tecnologia de Massachusetts (MIT), nos Estados Unidos, tentaram responder esta pergunta com inteligência artificial. A ideia é relativamente simples: treinar um modelo com pares de vozes e imagens, e testar como ele se sai tentando reconstruir a aparência das pessoas baseado apenas na voz. O sistema, convenientemente batizado de Speech2Face, foi treinado com milhões de clipes do YouTube, representando mais de 100 mil pessoas diferentes. Ao invés de gerar uma imagem nova da pessoa a partir do sinal de áudio, o sistema compara a voz com outros registros parecidos para os quais ele conhece o rosto, e assim estima como a nova pessoa deve se parecer.
Alguns resultados são bastante óbvios. O modelo foi capaz, por exemplo, de acertar o gênero da pessoa em 94% das vezes, e também teve uma correlação alta na avaliação de idade. Para etnia, as maiores correlações foram para pessoas caucasianas e asiáticas, tendo resultados menos precisos para negros e indianos. Mas para além de atributos demográficos, o modelo também conseguiu descobrir correlações entre a fala e o formato da mandíbula, mostrando que o desenvolvimento pode encontrar utilidade nos estudos de conexão entre anatomia e fala.
Em uma última etapa, os pesquisadores ainda combinaram o Speech2Face com o aplicativo de emojis personalizados do Google, criando avatares animados para o interlocutor.
Os autores consideram que este trabalho comprova a existência de informação biométrica compartilhada entre os modais vocal e facial, o que foi sugerido em estudos anteriores.
Outros exemplos de desempenho do modelo, e os detalhes do trabalho, podem ser acessados aqui.