Um time do Instituto de Tecnologia de Massachusetts (MIT) e da IBM acaba de publicar seu trabalho onde eles desenvolveram uma ferramenta que permite a manipulação semântica de fotos. Isso quer dizer que elementos podem ser adicionados ou retirados pela sua categoria. Na prática, ele funciona como um editor de imagens que possui um pincel chamado ‘árvore’, outro ‘porta’, ‘nuvem’ e ‘cadeira’, e assim por diante. A ferramenta, chamada GANpaint Studio, tem por objetivo gerar e editar imagens fotográficas realistas fazendo a edição automática de objetos contidos dentro delas.
Como indica seu nome, o GANpaint Studio foi desenvolvido usando redes adversariais generativas (GANs). Essa estrutura tem duas sub-redes internas: o gerador, que gera novas imagens que tentam se passar por reais, usadas no treinamento do algoritmo, e o discriminador, que tenta identificar as imagens falsas. Quando o discriminador é bem sucedido, ele informa o gerador como conseguiu identificar a imagem em questão, e assim o gerador se aperfeiçoa com o tempo. No final do treinamento, o gerador se torna especialista em criar imagens “reais”. É dessa forma que as GANs são capazes de manipular ou até gerar imagens novas com resultados realistas.
O que mais surpreendeu os pesquisadores, entretanto, não foi a capacidade com que seu algoritmo foi capaz de adicionar elementos às fotos, mas sim sua capacidade de discernir se as edições ‘faziam sentido’. Por exemplo, a ferramenta não permite a adição de elementos onde eles não deveriam ocorrer, como uma janela no céu, uma árvore num telhado ou uma nuvem passando pela frente de uma fachada. Ou então, que duas portas adicionadas em prédios diferentes devem elas também ser diferentes. É como se a rede tivesse aprendido o que é bom senso.
A equipe então resolveu destrinchar a rede neural para entender seu funcionamento. Essa é uma iniciativa inovadora, já que na maioria dos casos, as GANs funcionam como caixas pretas, sem que se entenda seu funcionamento interno. Dessa forma, os pesquisadores conseguiram identificar neurônios relacionados com determinados objetos, como os “neurônios da árvore”, e também aqueles que resultavam em artefatos visuais errados. A remoção desses últimos, por exemplo, aumentou o efeito realista das imagens geradas. Tanto que um dos pesquisadores descreve o projeto como uma das primeiras vezes que cientistas da computação foram capazes de “pintar com os neurônios” de uma rede neural. Mas o trabalho apresenta uma contribuição ainda maior: entendendo o funcionamento da rede, fica mais fácil desenvolver algoritmos que dependam de GANs, quaisquer que sejam suas finalidades. Um exemplo que se torna cada vez mais relevante com a ascensão das deepfakes, por exemplo, é a capacidade de identificar falsificações produzidas com más intenções.
Por si só, o GANpaint Studio tem enorme potencial de aplicação na indústria de fotografia e vídeo: imagine um arquiteto testando novos arranjos em seu projeto, um editor de filmes adicionando elementos a uma cena pronta, ou um artista testando de forma concreta novos conceitos de conotação abstrata. O funcionamento da ferramenta é demonstrado no vídeo abaixo, e ela pode inclusive ser testada aqui.