Google apresenta IA com nova abordagem para aumento de resolução de imagens

Muitos algoritmos de inteligência artificial têm sido propostos para aumentar a resolução de imagens. Esta tarefa tem aplicações tanto estéticas, como por exemplo aumentar a qualidade de fotografias antigas, quanto aplicações bem mais práticas, como melhorar os sistemas de exames médicos por imagem. Estes algoritmos são atualmente baseados em modelos generativos profundos, como redes neurais generativas adversariais, auto-encoders variacionais e modelos auto-regressivos. Entretanto, estas abordagens possuem suas dificuldades e limitações. As redes generativas, por exemplo, têm um treinamento instável e o modelo pode inesperadamente perder sua performance; os modelos auto-regressivos, quando aplicativos na geração de novas imagens, apresentam baixa taxa de síntese.

Trabalhando em uma nova solução, o Google Research, time de pesquisa da Google, apresentou uma nova iteração dos chamados modelos difusivos. Estes modelos foram primeiro propostos em 2015, mas começaram a ganhar tração apenas recentemente, mostrando resultados promissores na geração de imagens e áudio. Seu framework de funcionamento consiste em corromper os dados de treinamento – imagens em alta resolução, por exemplo -, adicionando ruído progressivamente, até que a imagem se torne apenas ruído, e depois uma rede neural é treinada para reverter este processo. Como resultado, a rede se torna capaz de gerar dados a partir de ruído, até que a qualidade desejada seja alcançada.

O trabalho do Google Research foi batizado de SR3 (Super-Resolution via Repeated Refinements, ou super-resolução através de melhorias repetidas), e aplica modelos de difusão consecutivos, junto com técnicas de aumentação de dados cuidadosamente selecionadas, para produzir uma imagem em alta resolução, usando como guia uma versão da imagem em resolução menor. Uma demonstração dos resultados produzidos ao longo do processo pode ser vista no vídeo:

Créditos: Google

O método foi testado subjetivamente por avaliadores humanos, que deveriam avaliar os resultados de aumento de resolução de 4 ou 8 vezes com imagens que já estavam originalmente na mesma resolução. O melhor desempenho possível é aquele onde a taxa de confusão é de 50%, o que indica que ambas as categorias são indistinguíveis. No aumento de resolução de 4 vezes, o SR3 atingiu uma taxa de confusão de 47%, superando as outras alternativas e praticamente alcançando o padrão ouro. No aumento de 8 vezes, a taxa foi de 40%, ainda considerada alta.

Os pesquisadores então aplicaram a abordagem em uma tarefa envolvendo a geração de imagens a partir de um prompt de texto, que é chamada de geração condicionada por classe. O sistema foi treinado usando o ImageNet, um dataset considerado desafiador por seu alto conteúdo informacional. O conceito envolve gerar uma imagem inicial em baixa resolução a partir do prompt, e então aplicar os modelos SR3 para aumentar a resolução progressivamente, como se vê abaixo:

Créditos: Google

O desempenho desta tarefa foi testado aplicando um algoritmo classificador às imagens geradas. A acurácia neste dataset foi de 63%, contra 73% do ImageNet original, ainda superando as abordagens alternativas atualmente disponíveis.

O Google Research agora pretende testar os modelos difusivos em uma variedade mais ampla de problemas envolvendo tarefas generativas.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.