IA reconhece posicionamento corporal a partir de vídeos com enquadramento parcial

A inteligência artificial que terá que se relacionar mais diretamente com as pessoas deve ter um bom modelo do corpo humano, e da forma com que nós interagimos com o mundo ao nosso redor. Esta integração é tão essencial que deu origem a uma área específica, chamada de estimação de pose humana. Os algoritmos responsáveis por esta tarefa podem ser usados para rotular vídeos, por exemplo, e assim fornecer informações sobre o posicionamento corporal para outros algoritmos. Um exemplo é um sistema inteligente que faça o monitoramento de pacientes em um hospital por vídeo, avisando um enfermeiro caso o paciente precise de ajuda. Entretanto, os modelos atualmente disponíveis para identificar as posições do corpo são treinados em bibliotecas curadas de vídeos, onde as pessoas aparecem inteiras, de forma centralizada, de forma que eles desempenham muito mal em vídeos obtidos de forma mais realista, como por sistemas de vigilância ou aqueles que nós postamos nas redes sociais, onde é comum que apenas uma parte das pessoas esteja visível.

Um trabalho apresentado em agosto na Conferência Europeia de Visão Computacional de 2020 traz uma inovação para a área. Os pesquisadores da Universidade de Michigan treinaram os modelos tradicionais com vídeos “recortados”, onde o enquadramento foi modificado artificialmente. Apesar de simples, esta abordagem se mostrou eficiente, já que a melhora de desempenho em alguns datasets públicos foi maior do que 10%, permitindo que o algoritmo pudesse fazer julgamentos mais precisos sobre o posicionamento integral do corpo a partir de uma imagem truncada.

Demonstração das reconstruções realizadas pelo modelo em dois datasets públicos. Créditos: autores.

A maior inovação do método foi apresentada em uma segunda técnica, que permite à rede neural treinar a si mesma, eliminando a necessidade de rotular os vídeos previamente. Isto foi conseguido usando um chamado modelo de confiança, que usa os valores de probabilidade retornados pela última camada de ativação da rede neural para auto-avaliar seu desempenho. Na prática, o modelo treina com as mesmas imagens várias vezes, sendo que elas são alteradas levemente entre uma iteração e outra, com pequenos deslocamentos por exemplo. Se o modelo faz predições similares em todas as situações, isto aumenta o grau de confiança na predição; em caso contrário, se pode concluir que ele está fazendo predições aleatórias e pouco confiáveis.

Na continuação do trabalho, os cientistas vão buscar identificar objetos nos vídeos, seu tamanho, e o que as pessoas estão fazendo com eles, atentos às mesmas limitações apresentadas na identificação das posições do corpo. Isto vai permitir que o algoritmo atinja um entendimento contextual muito maior do ambiente a partir de vídeos. Uma aplicação imediata deve ser a rotulagem automática de vídeos, de forma que será possível pesquisar por um conteúdo específico usando uma busca em forma de texto sem que alguém tenha anexado essas informações ao material. De forma mais ampla, isto será um novo passo para que a inteligência artificial tenha a habilidade de fazer sentido do mundo ao nosso, e ao seu, redor.