Agentes virtuais desenvolvem comportamento complexo motivados apenas pela competição contra outro time

A OpenAI é uma empresa que realiza pesquisas no campo da inteligência artificial com o objetivo de promover e desenvolver inteligência artificial amigável, capaz de beneficiar toda a humanidade. Seu grupo de pesquisadores acaba de publicar um estudo onde eles colocaram agentes virtuais para competir num jogo de esconde-esconde, num ambiente que proporcionava esconderijos fáceis e óbvios, mas também objetos movíveis. Eles observaram que, dotados de algoritmos padronizados de aprendizagem por reforço (que imitam a forma com que animais aprendem), os agentes foram capazes de desenvolver estratégias cada vez mais sofisticadas, usando os objetos do ambiente como ferramentas, e também apreendendo a coordenar a ação com os demais agentes do mesmo time, para vencer o desafio.

No jogo, o time encarregado de se esconder (azul) deveria evitar estar na linha de visão do time responsável por procurar (vermelho). Seguindo as regras tradicionais do jogo, o time azul saía na frente, podendo se esconder ou fazer alterações no ambiente. Nenhum incentivo explícito foi incluído para promover a exploração ou interação com o ambiente, o único objetivo era vencer o jogo. No começo, os jogadores se moviam de forma aleatória, colidindo em seu percurso com objetos movíveis, até que o time vermelho enxergasse o time azul. Mas os pesquisadores observaram emergir, no decorrer do treinamento, o surgimento de estratégias elaboradas. Cada nova estratégia criava uma pressão antes inexistente para que o time adversário pudesse progredir para a próxima fase.

A primeira etapa do estudo foi em um ambiente simples, contendo uma sala acessível por dois vãos, mais dois cubos e uma rampa movíveis, e dois jogadores por time. Primeiro, o time vermelho aprendeu a seguir o time azul, e assim vencer o jogo mais rapidamente. Na fase seguinte, o time azul aprendeu a usar os cubos para bloquear o acesso à sala, onde estava se escondendo. Depois, o time vermelho descobriu que podia usar a rampa para acessar o local bloqueado. O time azul então passou a trazer a rampa para dentro da sala onde estava se isolando. Nessa fase, a ação passou a ser coordenada, para que o time azul tivesse tempo de realizar todas as operações necessárias para sua vitória.

Na segunda etapa, o ambiente era mais complexo, definido por algumas combinações aleatórias. Haviam de 1 a 3 jogadores por time, de 3 a 9 blocos, 2 rampas, e número variável de salas e portas. Duas novas estratégias surgiram. Em uma delas, o time azul aprendeu a usar os blocos móveis para construir um esconderijo onde pudessem se enclausurar. Em outra, o time vermelho aprendeu a usar as rampas para subir nas caixas, as quais eles eram capazes de “surfar” até o local onde o time azul estava se isolando.

Uma demonstração do jogo pode ser vista no vídeo abaixo.

Créditos: OpenAI.

Com esse trabalho, os pesquisadores demonstraram que os agentes eram capazes de desenvolver comportamentos mais interpretáveis através do modelo empregado, que era baseado nas regras simples do jogo, ao invés de usar um modelo baseado em motivação intrínseca – como, por exemplo, recompensar o agente pelo simples ato de explorar o ambiente. Eles acreditam que esse modelo de competição será um método mais escalonável para gerar habilidades relevantes de maneira não-supervisionada, conforme os ambientes se tornem maiores e mais complexos. A expectativa é um dia possibilitar uma forma fácil de treinar a inteligência artificial para realizar tarefas úteis no ambiente físico.

Os detalhes das estruturas de rede usadas são discriminados no artigo original.