Aprendizagem por reforço multi-agente quando os agentes não podem se comunicar

O trabalho foi possível graças ao desenvolvimento de funções de custo capazes de isolar o impacto de um agente isolado no objetivo conjunto final.