DALL-E 2 gera imagens realistas e artísticas a partir de texto

Em janeiro do ano passado, a empresa OpenAI publicou o DALL-E, um modelo capaz de gerar imagens a partir de textos. Semana passada, chegou a vez de apresentar sua nova interação, o DALL-E 2, que explicitamente tem a capacidade de gerar imagens realistas e artísticas.

Treinado com pares de imagens e suas legendas, o modelo foi desenvolvido contendo dois estágios. No primeiro, chamado de prior, o texto é transformado em um espaço que contém as propriedades latentes de imagens. Esta etapa faz uso de uma arquitetura chamada de CLIP, que se mostrou um aprendiz bem-sucedido de representações para imagens. O segundo estágio, um decoder, é baseado nos chamados modelos de difusão, que funcionam começando com um padrão aleatório de pontos que são alterados passo-a-passo até formar imagens. No caso do DALL-E 2, ele é responsável por gerar a imagem condicionado pelos dados entregues pelo prior. Os desenvolvedores demonstraram que quebrando o processo em duas etapas melhorou a diversidade das imagens geradas com pouca perda no fotorrealismo e na similaridade às legendas. Além disso, o decoder se mostrou capaz de gerar variações que preservam tanto a semântica quanto o estilo das imagens, mudando os detalhes não essenciais que não estavam presentes na representação da imagem. Esta arquitetura também permitiu a edição de imagens em um paradigma zero-shot, ou seja, sem que o modelo tenha visto um exemplo sequer explícito da tarefa que precisa realizar.

Alguns dos resultados podem ser visualizados abaixo, mas outros exemplos impressionantes podem ser vistos no anúncio oficial do lançamento, e no artigo publicado.

unknown
Imagem produzida para a legenda: Um astronauta cavalgando um cavalo em estilo realista. Créditos: OpenAI.
Girl with a Pearl Earring, obra de Johannes Vermeer, e a variação produzida pelo DALL-E 2 no mesmo estilo. Créditos: OpenAI.

Em uma avaliação qualitativa, 72% de avaliadores humanos preferiram as imagens geradas pela nova versão do modelo do que pela versão anterior, avaliando se elas correspondem à legenda, e 89% preferiram o novo modelo quando avaliando o quesito fotorrealismo.

A empresa enfatiza que o DALL-E 2 ajuda a área de inteligência artificial a entender como sistemas avançados de IA compreendem o mundo, mas eles também esperam que o sistema ajude as pessoas a expressarem sua criatividade. No momento, entretanto, o projeto tem acesso controlado para que a OpenAI possa garantir o uso responsável de uma tecnologia tão disruptiva.

Deixe um comentário

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.