IA ensinar robôs a conectar os sentidos da visão e do tato

Os seres humanos são capazes de traduzir informações conferidas por um dos sentidos em outro. Por exemplo, é possível inferir propriedades táteis de objetos apenas olhando para eles, ou então imaginar características de contorno e superfície apenas manipulando objetos com as mãos. Os robôs que trabalham com sensores para captar informações do mundo geralmente são especializados em um único sentido. Entretanto, durante a Conferência de Computação Visual e Reconhecimento de Padrões (CVPR), que ocorreu entre 19 e 20 de junho em Long Beach, na Califórnia, uma equipe de pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do Instituto de Tecnologia de Massachusetts (MIT) apresentou seu trabalho que usa inteligência artificial para integrar os sentidos da visão e do tato em robôs.

Para alcançar esse objetivo, eles usaram um braço robótico da empresa KUKA, equipado com um sensor tátil chamado GelSight, que foi desenvolvido por outro grupo do MIT. A visão foi conferida por uma câmera para computador simples. Como um banco de dados para treinamento não estava disponível, ele precisou ser criado. O trabalho começou com a filmagem de 200 objetos, como ferramentas, produtos domésticos e tecidos, sendo tocados mais de 12.000 vezes. Os sinais dinâmicos foram então decompostos em pequenos frames estáticos para compor o banco de dados que eles batizaram de VisGel, contendo mais de 3.000.000 de dados visuais/táteis pareados. Então, eles usaram uma rede neural adversarial generativa (GAN) para habilitar a inteligência artificial a predizer informações de um sentido a partir de informações do outro. Esse tipo de rede neural usa uma estrutura chamada gerador e outra chamada discriminador, que competem entre si: o gerador busca criar sinais para enganar o discriminador, e quando o discriminador consegue reconhecer esses sinais inventados, o gerador é obrigado a melhorar sua estratégia, o que tende a tornar o discriminador cada vez mais eficiente.

Após o treinamento, o algoritmo permite ao robô primeiro inspecionar um objeto usando a câmera, fazendo inferências sobre seu formato, locais para tocá-lo, e a sensação causada. Então, o braço mecânico pode se ajustar para realizar o toque com a precisão necessária, em questões de localização, escala de toque e pressão. Em contrapartida, o algoritmo também habilita o robô a imaginar o formato e o material de um objeto baseado apenas em informações táteis. Tendo uma ideia de que objeto ele está manipulando, o robô pode então se adaptar para fazer interações ainda mais eficientes.

A equipe de pesquisadores agora planeja melhorar a inteligência artificial usando dados de natureza menos controlada, como os disponibilizados por luvas táteis, para aumentar o tamanho e a diversidade do banco de dados. Eles também consideram usar modelos mais robustos para incertezas, para possibilitar a realização de inferências mais difíceis como determinar a cor através do tato ou a suavidade através da visão. No futuro, se espera que uma inteligência artificial com essas habilidades possa ajudar a gerar uma relação mais harmoniosa entre visão e robótica, especialmente para reconhecimento e manipulação de objetos, melhor compreensão do ambiente de trabalho, e uma integração natural entre pessoas e robôs em configurações de assistência ou manufatura.