Inteligência artificial identifica atividades humanas usando ultrassom

Atividades de monitoramento como vigilância por vídeo, cuidados médicos, garantia do bem-estar de pessoas vulneráveis como infantes e idosos, e esportes exigem a capacidade de se reconhecer as atividades que as pessoas estão realizando. Essa tarefa, conhecida como HAR (human activity recognition, ou reconhecimento de atividade humana), tem cada vez mais sido deixada a cargo de algoritmos de machine learning. Os métodos de deep learning se mostraram muito eficientes nesse quesito, chegando a precisões superiores a 99%. Entretanto, eles geralmente fazem uso de vídeos, o que exige o monitoramento constante do ambiente. Como nossos equipamentos estão ficando cada vez mais conectados, muitos se preocupam com a possibilidade de perda de privacidade. Além disso, essa forma de captação de informação depende de boa iluminação, perdendo eficiência em ambientes escuros ou nebulosos. Uma alternativa é usar ondas sonoras para monitorar ambientes.

Alguns estudos já demonstravam o potencial da abordagem. Por exemplo, um método foi desenvolvido para transformar sinais sonoros em vetores de comportamento. Esses métodos dependem de dois tipos de informação. A primeira trata da geometria humana, que é usada para gerar um modelo do corpo humano, o que aumenta a precisão. A segunda é uma característica das ondas sonoras, chamada de informação de tempo e frequência, que é interpretada por métodos de deep learning para converter os sinais sonoros em dados. Mas o desempenho desses estudos se mostrou limitado pelo uso de poucos sensores, o que dava uma característica unidimensional à informação, já que apenas o tempo era variável.

Avançando sobre os trabalhos anteriores, uma equipe de pesquisadores da Universidade de Tecnologia de Wuhan, na China, desenvolveu um conjunto acústico bidimensional, transformando a informação em tridimensional. Eles usaram quatro transmissores e 256 receptores de ultrassom que coletavam as ondas refletidas pelos objetos presentes; todos esses sensores estavam embutidos em uma única placa retangular de tamanho aproximado de 40 x 40 cm. Os autores defendem que o arranjo bidimensional de seus sensores reduz a complexidade da extração de variáveis dos sinais, o que reduz o consumo de recursos de processamento, ao mesmo tempo em que aumenta a precisão da classificação. Os dados captados foram transformados em variáveis usando o desvio padrão das informações de tempo e frequência dos sons, uma forma já bem estabelecida de analisar sinais ondulatórios. Essas informações foram então usadas para treinar uma rede neural convolucional de forma a predizer a atividade sendo realizada, de acordo com quatro categorias: em pé, sentado, andando ou caindo.

No domínio do tempo, as atividades estáticas (em pé e sentado) alcançaram uma precisão de 100% após cerca de 200 iterações da rede convolucional; as atividades dinâmicas (andando e caindo) tiveram um desempenho próximo de 90%. Mas no domínio da frequência, todas as atividades atingiram 100% de precisão após 400 iterações (figura abaixo). O número de receptores teve um impacto considerável: enquanto que o arranjo proposto de 256 sensores alcançou um desempenho médio próximo de 100%, a utilização de 8 sensores (presente nos trabalhos de outros grupos) não atingiu mais que 65% de precisão, e um arranjo com 4 sensores não passou de 50%. O método de machine learning também foi avaliado: a utilização de K-Nearest Neighbors (KNN) atingiu desempenho de 100% para valores baixos de k (ou seja, para o monitoramento de poucas categorias de atividades), mas caiu drasticamente com k > 15; o uso de Support-Vector Machines (SVM) teve desempenho de 100% no domínio da frequência e 80% no domínio do tempo, mas a variação de desempenho era maior que na CNN conforme mais iterações eram realizadas, e não chegou a estabilizar como aconteceu com a CNN.

Desempenho da CNN usando 256 sensores sonoros no domínio da frequência. Adaptado do artigo original.

O presente trabalho foi publicado no último dia 28 na revista de divulgação científica Applied Physics Letters. Na sequência, os autores agora pretendem treinar o método usando uma variedade maior de atividades, que reflita a utilização prática de seu sistema de classificação.