Aprendizagem por reforço multi-agente quando os agentes não podem se comunicar
O trabalho foi possível graças ao desenvolvimento de funções de custo capazes de isolar o impacto de um agente isolado no objetivo conjunto final.
O trabalho foi possível graças ao desenvolvimento de funções de custo capazes de isolar o impacto de um agente isolado no objetivo conjunto final.