A corrida das IAs generativas continua aquecida. Na semana passada, o Google anunciou o lançamento do Imagem 2, sua nova versão de IA para geração de imagens a partir de texto. Desenvolvido pela DeepMind, o sistema representa um avanço significativo no campo da geração de texto para imagem.
A nova versão do Imagen se baseia em seu predecessor, oferecendo diversas melhorias importantes. Notavelmente, ele fornece imagens de qualidade consideravelmente superior, caracterizadas por fotorrealismo, alta resolução e apelo estético. Esse aprimoramento decorre de uma arquitetura aprimorada do modelo de difusão e de um conjunto de dados de treinamento cuidadosamente selecionado. Além disso, o Imagen 2 oferece aos usuários maior controle sobre as imagens geradas. Recursos como preenchimento e pintura externa permitem a integração perfeita de novo conteúdo em imagens existentes e até mesmo a extensão além de suas bordas originais. No coração do Imagen 2 está um modelo de difusão, treinado em um enorme conjunto de dados de pares texto-imagem. Este modelo refina progressivamente um padrão de ruído inicial em uma imagem que se alinha com o prompt textual fornecido.
Além da qualidade, outra preocupação do Google foi com o uso responsável do recurso. Por isso, toda imagem gerada vai ter a adição de uma marca d’água, invisível ao olho humano, para que sua origem possa ser verificada automaticamente.
O Imagen 2 possui imenso potencial em vários domínios. Em áreas criativas, ele pode capacitar designers e artistas a explorar conceitos visuais e iterar rapidamente sobre ideias. Na ciência e na educação, pode facilitar a comunicação de conceitos complexos por meio de representações visualmente atraentes. A capacidade do modelo de gerar diversos estilos de imagem amplia ainda mais sua aplicabilidade, potencialmente enriquecendo áreas como design de produto, marketing e entretenimento.
Junto ao lançamento do novo modelo, o Google também está disponibilizando uma ferramenta experimental chamada ImageFX. Disponível através do AI Test Kitchen, o ImageFX permite aos usuários criar imagens com prompts de texto que podem ser modificados através de caixas de seleção, que a empresa chama de chips expressivos. As opções das caixas seguem o tema proposto pelo usuário, servindo de sugestões para gerar resultados mais interessantes. Além do ImageFX, o Imagen 2 já está disponível para uso através do Bard e de ferramentas do Google Cloud, como SGE e Vertex AI.
Alguns exemplos de resultados e de funcionalidade podem ser vistos no anúncio oficial do Google.