No ano passado, pesquisadores da Universidade de Stanford publicaram um trabalho descrevendo uma tecnologia para sincronização de lábios que permitia que editores de vídeo pudessem alterar as palavras de quem está falando de forma quase imperceptível, o que permitia inserir ou remover palavras mesmo no meio de frases. A tecnologia tem aplicações benéficas, como durante a edição de filmes, onde não seria necessário refilmar sequências ou fazer malabarismos de montagem para que o resultado final ficasse de acordo com a vontade do diretor. Entretanto, ela também poderia ser utilizada com más intenções, como para produzir deep fakes com conteúdo desinformativo.
Este ano, os mesmos pesquisadores apresentaram um novo trabalho capaz de detectar as alterações realizadas. Ele se baseia nas mesmas ideias desenvolvidas no trabalho anterior, que buscavam parear fonemas com o que eles chamaram de “visemas”, correspondentes à posição dos lábios durante a produção do fonema. Apesar de as edições produzidas terem passado despercebidas por avaliadores humanos, ainda assim alguns artefatos são inseridos, sobretudo em fonemas com visemas bem característicos, como aqueles das letras M, B e P. Nestes casos, os lábios devem se fechar de forma firme. Pequenas diferenças entre as representações reais e criadas destes visemas foram utilizadas para detectar as sessões editadas dos vídeos com o uso de uma rede neural convolucional.
No trabalho, os cientistas avaliaram vários vídeos adulterados do ex-presidente Barack Obama. O algoritmo, treinado com instâncias deste dataset, conseguiu identificar os casos de deep fake com precisão superior a 90%. Quando avaliado em um dataset mais amplo contendo outras pessoas, a precisão foi de 81%.
Os autores comentam que detecções de deep fake com manipulação espacial e temporal limitada, como as edições feitas para alterar sutilmente um discurso de forma a mudar sua interpretação, são particularmente difíceis de detectar. Em casos de alto risco, a avaliação pode ser feita por uma pessoa qualificada, mas num ambiente mais amplo, técnicas automáticas são necessárias. Neste sentido, seu trabalho é um avanço importante no combate às más práticas associadas a esta tecnologia, já que apresenta resultados promissores avaliando deep fakes criados com as técnicas mais recentes.