OpenAI apresenta modelo que gera imagens a partir da interpretação de textos

Há alguns meses, a OpenAI, empresa fundada em 2015 por Elon Musk, surpreendeu a comunidade de inteligência artificial anunciando o lançamento do GPT-3, um gerador de textos com desempenho impressionante. Esta semana, a empresa divulgou uma versão do GPT-3 treinada para gerar imagens a partir de descrições de texto. O novo algoritmo foi batizado de DALL-E, uma mistura dos nomes do artista Salvador Dalí e do personagem WALL-E, da Pixar.

O DALL-E é um modelo de 12 bilhões de parâmetros treinado com pares de texto e imagens. Graças à estrutura inovadora do GPT-3 que serve de arcabouço do novo modelo, ele consegue gerar imagens inéditas e coerentes mesmo quando alimentado com texto de natureza relativamente abstrata, o que exigiria mesmo a uma pessoa uma certa habilidade artística para expressar a ideia em uma imagem.

Em essência, o DALL-E também é um modelo de linguagem baseado em transformers que age exclusivamente como decoder. Ele recebe o texto e a imagem na forma de uma sequência única contendo até 1280 tokens (256 para o texto e 1024 para a imagem). A imagem é antes processada por um autoencoder variacional (variational autoencoder, VAE) para ser representada em um estado latente na forma de uma malha de 32 x 32 pixels. Através de suas 64 camadas de auto-atenção, o regime de treinamento faz com que o modelo seja capaz de gerar o próximo token pelo método de máxima verossimilhança (maximum likelihood), levando todos os outros tokens em consideração.

Este não é o primeiro modelo capaz de criar imagens a partir de texto. A área ganhou relevância a partir de 2016, mas o DALL-E, graças à grande capacidade de interpretação de linguagem conferida pelo GPT-3, apresenta capacidades inéditas bastante complexas. Os autores citam que o modelo é capaz de modificar atributos de um objeto, como mudar sua forma ou o número de vezes que o atributo aparece (como exemplo improvável, um cubo com a textura de um porco-espinho); desenhar múltiplos objetos, controlando seus atributos e suas relações espaciais (um pinguim usando roupas coloridas); levar em consideração perspectiva e tridimensionalidade (um cubo refletido em um espelho); desenhar cortes com a estrutura interna de objetos (uma noz fatiada ao meio); e inferir detalhes contextuais (como incluir a sombra de um objeto em um ambiente iluminado).

Graças a essas habilidades, o modelo pode ser explorado em uma série de aplicações. Ele pode, por exemplo, combinar conceitos não-relacionados (como desenhar uma poltrona no formato de um abacate), gerar ilustrações cartunescas (como animais antropomorfizados, quimeras e emojis), gerar imagens a partir da interpretação da tarefa indicada no texto (como desenhar um gato e sua versão de rascunho), e gerar desenhos que exijam conhecimento geográfico ou temporal (como comida chinesa ou telefone dos anos 20).

Os pesquisadores responsáveis pelo DALL-E estão trabalhando no artigo que deve descrever o modelo com maiores detalhes. Por enquanto, todos os exemplos mencionados neste texto (e muitos outros) podem ser visualizados no blog do OpenAI.