Aprendizagem por reforço multi-agente quando os agentes não podem se comunicar

Os algoritmos de aprendizagem por reforço já são comumente utilizados para treinar robôs na execução de várias tarefas. Um cenário mais complexo envolve vários robôs colaborando para atingir um objetivo conjunto, no que é chamado de MARL (multi-agent reinforcement learning, ou aprendizagem por reforço multi-agente). Quando a comunicação entre eles é permitida, o sistema é relativamente fácil de treinar, pois os agentes agem em conjunto como uma única unidade, mas existem situações onde isto não é possível, seja pela natureza da tarefa, seja por um problema momentâneo. Nestes casos, é mais difícil definir como um agente individual deve se comportar, já que os demais agentes transformam o ambiente constantemente, e o objetivo coletivo pode estar muito distante no futuro para classificar uma ação isolada como positiva ou negativa.

Pesquisadores da Universidade de Illinois apresentaram este ano uma nova abordagem que viabiliza cenários de MARL onde não há comunicação entre os agentes. O grande desafio foi encontrar funções de utilidade capazes de garantir a coordenação no treinamento de agentes independentes, ainda mais quando a tarefa é do tipo não-estruturada (como um jogo de livre movimentação), com recompensas esparsas (muitos movimentos são considerados neutros) e muitos agentes. Eles resolveram isso utilizando o que eles chamaram de atributos sucessores, que ajudam a separar o impacto de um único agente da função de valor global. Assim, foi possível treinar de forma centralizada um sistema de execução decentralizado, e testá-lo em uma variedade de ambientes virtuais multi-agentes, como os jogos Capture a Bandeira e StarCraft. Os resultados deixaram os pesquisadores animados, atingindo performance e tempo de treinamento superiores aos métodos atuais. O desempenho em StarCraft foi considerado especialmente notável, pois o jogo é de uma natureza mais imprevisível que os demais.

O trabalho, apresentado na Conferência Internacional de Agentes Autônomos e Sistemas Multi-Agente em maio, pode servir de base para o desenvolvimento de sistemas nas áreas de vigilância militar, depósitos automatizados, controle de tráfego, veículos autônomos e controle de malha elétrica.

2 comentários em “Aprendizagem por reforço multi-agente quando os agentes não podem se comunicar”

Deixe um comentário

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.