NVIDIA apresenta seu modelo de geração de imagens com texto

Depois de empresas como OpenAI, Google, Midjourney e StabilityAI, agora é a vez da NVIDIA anunciar o lançamento de seu modelo capaz de gerar imagens a partir de um prompt de texto. O eDiffi vem fazer companhia ao DALL-E 2, ao Midjourney, ao Imagen e ao Stable Diffusion, mas como não poderia deixar de ser, o novo modelo tem seu próprio ponto forte.

Todas essas ferramentas são implementações dos chamados modelos de difusão, que produzem imagens a partir de um processo de denoising, começando com um ruído que, condicionado pelo texto, vai ganhando a forma desejada. Os modelos lançados anteriormente dependiam de um único denoiser, mas o eDiffi emprega um conjunto, ou ensemble, de denoisers especialistas, cada um responsável por um intervalo diferente no processo generativo. Assim, cada aspecto da imagem é gerado com maior fidelidade, produzindo um resultado final superior ao de seus competidores.

Além dos denoisers especialistas, o eDiffi é uma combinação de três modelos de difusão. O modelo básico gera imagens de tamanho 64×64, e os demais promovem incrementos na resolução (para 256 e depois 1024 pixels quadrados), ao mesmo tempo em que incorporam a intenção expressa pelo texto. Outro diferencial é que o modelo da NVIDIA incorpora embeddings de texto gerados pelo modelo de processamento de linguagem natural T5 do Google, que carrega mais informação contextual. No final do processo criativo, as imagens são mais detalhadas e representam melhor o texto original.

As funcionalidades do eDiffi também vão além da geração de imagens com texto. O modelo pode usar uma imagem como referência para transferir seu estilo para novas imagens, e também usar um sketch junto com o prompt textual para orientar o posicionamento dos objetos.

A publicação que apresenta o modelo e vários exemplos de produções do eDiffi, assim como comparações com os outros modelos disponíveis, podem ser vistas aqui.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.