Melhorando os modelos de reconhecimento de imagens com mais inspiração do sistema visual humano

As redes neurais convolucionais foram desenvolvidas baseadas na forma hierárquica com que funciona a visão em humanos: num primeiro estágio de processamento, a rede, assim como nosso cérebro, reconhece pequenas pistas visuais como bordas, contornos e contrastes, que ao longo do processo são interpretados como formas e, finalmente, objetos. Apesar de terem alcançado desempenhos impressionantes em tarefas visuais como o reconhecimento de imagens, estas redes ainda são vulneráveis a pequenas modificações das imagens originais, como a simples aplicação de filtros de desfoque, zoom, brilho, contraste ou compressão de formato, o tipo de modificação que não atrapalha o reconhecimento humano, mas compromete o desempenho do algoritmo.

Para resolver este problema, cientistas do Instituto de Tecnologia de Massachusetts, da Universidade de Harvard e da IBM buscaram novamente inspiração na biologia. É sabido que um dos primeiros estágios de processamento de estímulos visuais é realizado por uma região chamada de V1, uma das mais bem caracterizadas estruturas do cérebro, que contém neurônios que respondem a características visuais simples como bordas, e faz uma segmentação das imagens em uma escala muito pequena. Essa informação é mais tarde usada pelo restante da via visual para identificar o formato e a textura dos objetos. Apesar de as redes convolucionais terem sido desenvolvidas com esta etapa do processamento em mente, sua arquitetura não foi especificamente montada com este objetivo. Foi justamente isso que os pesquisadores fizeram agora.

Em um trabalho apresentado este mês na Conferência de Sistemas de Processamento de Informação Neural (NeurIPS), eles mostraram a VOneNet, uma nova classe de modelos convolucionais híbridos que, além da estrutura convolucional clássica, contém um primeiro bloco chamado de VOneBlock. Este bloco é uma rede convolucional especializada de pesos fixos, baseada em um modelo neurocientífico clássico da região V1. A adição deste bloco permitiu que a rede híbrida mantivesse a alta performance no conhecido dataset ImageNet para reconhecimento de imagens, mas mantendo a robustez das predições: em um benchmark de perturbações das imagens, ela superou o desempenho da CNN base em 18%, e o melhor modelo disponível em 3%.

Este avanço é significativo já que a visão computacional está começando a ser aplicada em áreas sensíveis a protocolos de segurança. Os carros autônomos são o exemplo clássico: seu sistema de reconhecimento visual não pode confundir placas e objetos encontrados pelo caminho, já que decisões com implicações éticas dependem dessa informação. A visão computacional aplicada nestes casos deve no mínimo ser tão eficiente quanto a visão humana.

Os pesquisadores concluem comentando que, por mais que as CNNs já sejam inspiradas no cérebro, imitar seu processamento de forma ainda mais precisa pode proporcionar desempenhos ainda melhores para aplicações de visão computacional. Apesar de ter sido um processo não guiado, a natureza teve milhões de anos para desenvolver nossa visão, então certamente que explorar suas características pode revelar etapas do processamento que seriam difíceis de prever em termos meramente teóricos. Este trabalho é um exemplo disso.