Aprendizagem por reforço multi-agente quando os agentes não podem se comunicar

Os algoritmos de aprendizagem por reforço já são comumente utilizados para treinar robôs na execução de várias tarefas. Um cenário mais complexo envolve vários robôs colaborando para atingir um objetivo conjunto, no que é chamado de MARL (multi-agent reinforcement learning, ou aprendizagem por reforço multi-agente). Quando a comunicação entre eles é permitida, o sistema é relativamente fácil de treinar, pois os agentes agem em conjunto como uma única unidade, mas existem situações onde isto não é possível, seja pela natureza da tarefa, seja por um problema momentâneo. Nestes casos, é mais difícil definir como um agente individual deve se comportar, já que os demais agentes transformam o ambiente constantemente, e o objetivo coletivo pode estar muito distante no futuro para classificar uma ação isolada como positiva ou negativa.

Pesquisadores da Universidade de Illinois apresentaram este ano uma nova abordagem que viabiliza cenários de MARL onde não há comunicação entre os agentes. O grande desafio foi encontrar funções de utilidade capazes de garantir a coordenação no treinamento de agentes independentes, ainda mais quando a tarefa é do tipo não-estruturada (como um jogo de livre movimentação), com recompensas esparsas (muitos movimentos são considerados neutros) e muitos agentes. Eles resolveram isso utilizando o que eles chamaram de atributos sucessores, que ajudam a separar o impacto de um único agente da função de valor global. Assim, foi possível treinar de forma centralizada um sistema de execução decentralizado, e testá-lo em uma variedade de ambientes virtuais multi-agentes, como os jogos Capture a Bandeira e StarCraft. Os resultados deixaram os pesquisadores animados, atingindo performance e tempo de treinamento superiores aos métodos atuais. O desempenho em StarCraft foi considerado especialmente notável, pois o jogo é de uma natureza mais imprevisível que os demais.

O trabalho, apresentado na Conferência Internacional de Agentes Autônomos e Sistemas Multi-Agente em maio, pode servir de base para o desenvolvimento de sistemas nas áreas de vigilância militar, depósitos automatizados, controle de tráfego, veículos autônomos e controle de malha elétrica.

Post Views: 1.516

2 comentários em “Aprendizagem por reforço multi-agente quando os agentes não podem se comunicar”

Elton Egydio Mauris
26 de agosto de 2022 em 14:40
Muito legal. Parabéns pela pesquisa e divulgação.
Responder
1. Jones Granatyr
  27 de agosto de 2022 em 15:50
  Que bom que gostou! 🙂
  Responder

Deixe um comentário Cancelar resposta

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

Aprendizagem por reforço multi-agente quando os agentes não podem se comunicar

Sobre o autor

Denny Ceccon

2 comentários em “Aprendizagem por reforço multi-agente quando os agentes não podem se comunicar”

Deixe um comentário Cancelar resposta