IA ganha a habilidade de entender relações espaciais entre objetos

A inteligência artificial já consegue reconhecer objetos em uma imagem ou vídeo, o que é útil para tarefas de classificação, mas ela ainda não é muito boa para entender os objetos que compõem uma cena da mesma forma que os seres humanos fazem. Nós não avaliamos objetos por sua posição absoluta, mas sim pela relação que eles mantêm entre si. Em uma mesa posta, por exemplo, nós observamos que o garfo está à esquerda do prato, a faca à direita, e o copo acima. Esta forma de avaliar o ambiente é essencial para que consigamos realizar tarefas que envolvam interagir com ele.

Buscando capacitar a inteligência artificial a entender o ambiente de uma forma mais parecida com a nossa, cientistas do Instituto de Tecnologia de Massachusetts, nos Estados Unidos, desenvolveram um modelo capaz de representar as relações individuais uma por vez, e depois combiná-las para descrever a cena completa. A capacidade foi avaliada quando o modelo foi conjugado com uma rede neural especializada em criar imagens a partir de uma descrição textual.

A habilidade de representar as relações entre os objetos foi incorporada pelo uso dos chamados modelos baseados em energia. Ao contrário das tentativas anteriores de resolver o problema, o novo modelo busca primeiro decompor o texto de forma a representar relações individuais, as quais depois são combinadas. Desta forma, o modelo pode entender e reproduzir posicionamentos que ele não tenha visto antes, o que não era possível com as outras abordagens. Foi assim que o novo sistema ultrapassou a performance atual, se tornando o novo estado da arte. Quando as imagens foram avaliadas por pessoas, 91% dos participantes concluíram que o novo modelo era superior.

Os pesquisadores ficaram surpresos com a robustez da solução. O sistema também demonstrou ter a capacidade inversa, de elaborar legendas para imagens com composição complexa. Quando apresentado com várias descrições para uma mesma cena, ele foi capaz de identificar qual a descrição mais apropriada. E ainda, quando testado como uma mesma descrição escrita de forma diferente, ele foi capaz de entregar o mesmo resultado, demonstrando ter entendido que as descrições eram equivalentes.

Este trabalho faz avanços significativos na área da inteligência artificial relacionada a habilidades espaciais, e no futuro deve ser a base para capacitar robôs a executarem tarefas mais complexas em cenários diversos com instruções genéricas.

Deixe um comentário

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.