Método combina rede neural convolucional e sistema de tracking para monitoramento automático do trânsito a partir de câmeras

Quando cidades se tornam muito grandes, o trânsito de meios de transporte não consegue mais ser administrado eficientemente com a mera instalação de semáforos pré-programados. Metrópoles costumam ter centros de análise de tráfego em tempo real, de forma que ajustes sejam feitos nos fluxos conforme as condições presentes. Esses centros dependem da instalação de câmeras nos pontos críticos de circulação de veículos, e essas câmeras podem ter diferentes resoluções, pontos de montagem (em relação à altura do solo) e taxas de frame. Via de regra, essas informações são analisadas de forma manual por técnicos, que na melhor das hipóteses fazem uso de softwares simples que informam dados básicos para suas decisões. Além disso, padrões de tráfego de médio e longo prazo, que poderiam orientar políticas de impacto mais significativo, acabam sendo gerados com dias ou meses de atraso. Dada a enorme quantidade de dados gerados pelos sistemas de monitoramento, e o atual desempenho dos sistemas de inteligência artificial para processar imagens, essa é uma área com enorme potencial de otimização.

O trabalho de pesquisadores da Universidade Estadual de Ural do Sul, na Rússia, publicado no último dia 7 na revista Journal of Big Data, propõe uma solução nesse sentido. Primeiro, eles construíram um dataset desafiador contendo 982 frames de vídeo com alto tráfego, em diferentes condições climáticas, somando mais de 60.000 instâncias de veículos de diferentes formatos, escalas e classes. Segundo, eles implementaram um novo sistema de estimação do fluxo de trânsito, baseado nos avanços recentes em detecção de veículos e tarefas relacionadas a tráfego. E por fim, eles avaliaram seu sistema, providenciando evidências de que a solução proposta tem precisão suficiente para ser usada como espinha dorsal de outros modelos superiores.

A rede neural desenvolvida partiu de um popular detector de dois estágios, Faster R-CNN. Módulos desse tipo primeiro predizem regiões de interesse dentro da imagem e depois refinam e classificam cada uma delas durante o segundo estágio. O Faster R-CNN é considerado o melhor modelo disponível em muitos benchmarks de detecção, e é possível estender sua arquitetura posteriormente para tarefas múltiplas, tornando-a uma opção versátil. Os autores fizeram algumas modificações na estrutura da rede, incluindo um ramo adicional de máscara que melhora a predição das fronteiras dos objetos, a otimização do formato das âncoras dos objetos, um cálculo de custo focal desenvolvido recentemente para problemas desbalanceados como esse, e uma camada de pooling de features adaptativa capaz de fazer o pooling e a fusão de regiões de interesse na imagem. Para o módulo de tracking, capaz de identificar a direção e o sentido do deslocamento dos veículos identificados, eles usaram o SORT, que permite o acompanhamento de objetos através de múltiplos frames, e apresenta um bom trade-off entre velocidade e precisão, necessário uma vez que as imagens contendo muitos veículos seriam computacionalmente caras de processar. A figura abaixo mostra um exemplo dos veículos reconhecidos pelo algoritmo em uma imagem representativa do dataset.

Fonte: adaptado do artigo original. É interessante observar que veículos estacionados não foram identificados, o que é bem-vindo para a tarefa em questão.

Quando o sistema foi avaliado na sua capacidade de prever o sentido de deslocamento dos veículos, ele obteve um erro médio percentual de 7,25%, que acabou sendo levemente superior ao desempenho humano, mas suficiente para demonstrar o potencial da abordagem, já que esse nível é aceitável para o uso do sistema em situações reais. A maioria dos erros estava associada a oclusões, quando alguns veículos ficavam temporariamente ocultos atrás de outros. Os autores sugerem que essas situações podem ser consideradas em melhorias, mas isso teria atualmente um custo computacional que inviabilizaria o uso do sistema para o monitoramento real do trânsito. Mesmo assim, esse é o projeto mais completo já apresentado automatizando etapas do monitoramento de trânsito.

Soluções como essa são muito esperadas pelos profissionais da área. Tanto que a prefeitura da cidade de Chelyabinsk, onde a universidade se encontra, vai usar a ferramenta apresentada pelos pesquisadores na sua central de monitoramento de tráfego, o que deve fornecer um importante feedback para fomentar o interesse das pesquisas em inteligência artificial focadas em trânsito.