Nova IA reconhece gestos com alta precisão

Controlar o ambiente com gestos das mãos já não é mais uma realidade distante. As áreas de cibernética avançada e robótica, por exemplo, já têm experimentado com protótipos que imitam os movimentos de um especialista para realizar a montagem de nano-componentes ou cirurgias de precisão. Jogos eletrônicos também têm oferecido os primeiros modelos de periféricos que oferecem um ambiente de realidade virtual onde os gestos têm papel relevante.

Os primeiros sistemas de reconhecimento de gestos eram baseados exclusivamente na captura e reconhecimento de imagens, e mais recentemente, na integração dos sinais visuais com aqueles produzidos por sensores vestíveis, em uma abordagem conhecida como fusão de dados. Os sensores têm por objetivo reproduzir o sistema somatossensorial, ou mais especificamente o tato, que nos dá um feedback imediato sobre nossos movimentos com as mãos, guiando nossas ações e reações ao manusear o ambiente.

Mesmo com este avanço de engenharia, os sensores ainda são muito volumosos e não mantêm contato fixo com o usuário, o que gera dados de baixa qualidade. Este percalço é complicado na hora de integrar os dados visuais com os sensoriais, já que eles representam datasets não pareados que devem ser processados separadamente e unificados no final, o que é ineficiente e resulta em latência.

Para resolver este problema, pesquisadores da Universidade Tecnológica de Nanyang, em Cingapura, apresentaram em junho um novo modelo de machine learning para reconhecimento de gestos, inspirado na forma com que o cérebro processa dados oriundos de fontes sensoriais diferentes. O trabalho começou com a criação de um sensor de tensão transparente e elástico, fabricado com nanotubos de carbono, que adere à pele e produz sinais mais confiáveis, os quais são interpretados por uma rede neural profunda. Os gestos continuam sendo capturados por uma câmera, cujo sinal por sua vez é processado por uma rede neural convolucional. Então, ambas as informações são fusionadas usando uma rede neural esparsa, que é aquela onde a maioria dos pesos é igual a zero. Esta estrutura é mais eficiente em termos de espaço e tempo de execução. O resultado foi um algoritmo capaz de reconhecer gestos com precisão de 100%. Este desempenho é possível porque, da forma com que o modelo foi concebido, ambos os sinais podem interagir e complementar um ao outro ainda no início de seu processamento, antes de alcançarem um estágio avançado de interpretação. Assim, o sistema coleta informações coerentes com menor ambiguidade. Mesmo com a introdução de ruído, como a captura dos sinais no escuro, a precisão é de 96,7%, o que reforça a robustez da abordagem.

Os autores indicam como potenciais usos da tecnologia desde o controle remoto de robôs em espaços de trabalho inteligentes até a criação de exoesqueletos para pessoas idosas ou debilitadas. Por enquanto, os pesquisadores estão trabalhando em um sistema de realidade virtual que vai aplicar a inteligência artificial desenvolvida na realização de tarefas que precisam do reconhecimento de gestos de alta precisão, como a indústria do entretenimento e de reabilitação.