Os modelos de inteligência artificial para a geração de imagens tiveram uma evolução impressionante nos últimos 2-3 anos, mas algumas tarefas estão mais adiantadas do que outras. A geração de novos pontos de vista para uma imagem, por exemplo, permitem apenas a movimentação limitada de uma câmera virtual, o que por sua vez limita a diversidade dos resultados possíveis.
Trazendo novidades para esta área de pesquisa, no início do mês, pesquisadores do Google publicaram o estado de um projeto chamado de Infinite Nature, que tem por objetivo gerar vídeos simulando uma vista aérea de cenários naturais como montanhas, praias e florestas. Na versão atual, o modelo chamado de InfiniteNature-Zero é capaz de produzir vídeos infinitos desta natureza, em alta resolução e com alta qualidade, a partir de uma única imagem inicial.
Os pesquisadores batizaram esta tarefa de geração de vista perpétua, e a primeira versão do projeto foi treinada com vídeos capturados por drones voando ao longo de linhas costais. Além do aspecto visual do cenário, o modelo teve que aprender a geometria tridimensional que garante realismo quando há movimento nas imagens. Esta geometria é representada por um mapa de profundidade produzido por métodos de predição de profundidade para imagens unitárias. O Infinite Nature aprende então a construir o frame seguinte do vídeo junto com seu mapa de profundidade correspondente, e ambos são fundidos para renderizar a imagem. Neste processo, cada novo frame é ligeiramente degradado em relação ao anterior, mas uma rede de refinamento é aplicada para fazer as correções necessárias. Por fim, o sistema treina em um regime adversarial, o que ajuda a manter o realismo dos resultados. Em modo de inferência, o processo é repetido em um loop infinito, gerando sequências novas de forma coerente.
Na nova versão, o sistema foi treinado com imagens estáticas, ou seja, com “zero” vídeos, de onde sai o nome do modelo. A continuidade das imagens geradas foi garantida durante o treinamento, pois o modelo aprende um caminho cíclico para a câmera virtual, onde o frame final deve ser idêntico ao inicial. Os componentes adversarial e de refinamento foram mantidos, e o gerador é equipado com um módulo para geração de regiões aéreas de alta qualidade. Alguns resultados podem ser vistos abaixo.
Os pesquisadores continuam trabalhando na evolução do sistema com o objetivo de um dia gerar mundos tridimensionais completos, fotorrealistas e consistentes. Algumas potenciais aplicações incluem cenários de jogos e ambientes virtuais para relaxamento.
Mais exemplos de produções do sistema, o código para replicar os experimentos e até uma demonstração onde o usuário pode controlar o caminho da câmera estão disponíveis na página do projeto.