A inteligência artificial já demonstrou enorme potencial na geração de conteúdo inédito, a partir da extrapolação de exemplos que ela tenha visto na fase de treinamento. Mas na maioria dos casos, os resultados são meras imitações, que não fazem uso de um conhecimento mais profundo dos atributos isolados que resultam em objetos únicos. Esta compreensão é peça fundamental da imaginação humana, que é capaz de unir domínios diferentes em um todo coerente, e que até então não havia sido satisfatoriamente reproduzido em máquinas.
Um estudo de pesquisadores da Universidade da Califórnia do Sul, nos Estados Unidos, apresenta novidades nesta área. Apresentado em maio na Conferência Internacional sobre Representações de Aprendizagem, na Áustria, o trabalho busca reproduzir as capacidades da generalização visual humana na forma de uma rede neural. Os pesquisadores introduziram no processo tradicional de geração com inteligência artificial o conceito de “desemaranhamento” (disentanglement, originalmente), para que o algoritmo conseguisse separar de imagens que recebia como entrada os seus atributos mais básicos, e assim produzir novas imagens fazendo a combinação de atributos isolados. Este processo já é empregado na geração de deepfakes, onde os movimentos faciais são separados da identidade da pessoa, mas agora foi usado para desenvolver um processo mais generalista.
O novo framework, batizado de aprendizagem supervisionada em grupo (GSL, ou group-supervised learning), faz uso de funções objetivo que permitem decompor as entradas do algoritmo em representações desemaranhadas com componentes intercambiáveis, que podem ser recombinados para gerar novo conteúdo. O framework foi testado com uma implementação baseada em autoencoders, produzindo imagens que misturam a identidade, a pose e o fundo (no caso de objetos) ou a expressão (no caso de rostos) de três exemplos diferentes, conforme pode ser visto na figura abaixo.
O sistema foi comparado com outras abordagens usando benchmarks existentes, se revelando o novo estado da arte.
Os autores acreditam que o framework apresenta um novo patamar de imaginação para a inteligência artificial, aproximando a forma com que as máquinas entendem o mundo da forma humana. Ainda segundo eles, o método pode ser compatível com qualquer tipo de dado ou conhecimento, o que aumenta o universo de potenciais aplicações.