AlphaStar, o algoritmo que se tornou profissional em um jogo de estratégia em tempo real

Um dos objetivos mais ambiciosos dos pesquisadores em inteligência artificial é desenvolver a chamada inteligência artificial geral (AGI, sigla para artificial general intelligence), que habilitaria os computadores a resolverem problemas complexos de uma natureza mais generalizada, sem que tenhamos que orientá-los sobre, por exemplo, como pré-processar os dados a que tem acesso ou qual algoritmo utilizar. Em outras palavras, seria como habilitá-los a pensar como humanos. Várias iniciativas já têm trabalhado nesse sentido, inclusive aquela desenvolvida pela DeepMind, uma empresa subsidiária da Alphabet, portanto irmã do Google.

Um dos projetos da DeepMind envolve o jogo StarCraft II. Este é um jogo de estratégia espacial em tempo real, onde geralmente duas pessoas competem entre si. Cada jogador deve escolher uma entre três raças, cada uma com características próprias. O jogo consiste em se revezar entre as atividades de coletar recursos, desenvolver infraestrutura e armas, e atacar o time inimigo. As regras são bastante complexas (estimam-se 1026 possibilidades de ação a cada movimento) e as informações disponíveis são imperfeitas, o que faz de StarCraft II um ambiente atrativo para testar algoritmos avançados, que teriam como objetivo final resolver problemas no mundo real.

Em janeiro desse ano, a DeepMind já havia anunciado um marco inédito envolvendo o jogo: a inteligência AlphaStar desenvolvida por eles foi capaz de vencer dois jogadores profissionais. Agora, eles anunciam um feito ainda mais impressionante: o AlphaStar atingiu o nível máximo do jogo, o de grandmaster, ultrapassando 99,8% dos jogadores da plataforma. O trabalho foi publicado no final de outubro na revista Nature.

O AlphaStar foi treinado usando aprendizagem por reforço, um tipo de algoritmo onde a abordagem para dominar a tarefa é de tentativa e erro, jogando contra si mesmo, sem qualquer intervenção humana. A equipe já havia usado a mesma estratégia para desenvolver AlphaGo, um algoritmo que se tornou capaz de vencer um campeão mundial no jogo Go, considerado um dos mais desafiadores jogos clássicos de tabuleiro. Mas uma modificação foi incorporada ao processo desta vez: ao invés de treinar duas versões do algoritmo competindo entre si pela vitória, o que pode levá-las a desenvolver repetidamente estratégias muito específicas para determinadas condições, uma das versões tinha como objetivo principal expor as falhas da outra. É como se um algoritmo estivesse disponível apenas para que o outro pudesse praticar, oferecendo insights sobre sua própria estratégia para que seu parceiro se tornasse melhor nas suas decisões. Dessa forma, o algoritmo vencedor alcançou maior capacidade de generalização, o que lhe permitiu se adaptar a uma gama maior de cenários do jogo. E, finalmente, atingir o ápice do ranking.

Os pesquisadores esperam que o aprendizado alcançado com o desenvolvimento do AlphaStar possa ser aproveitado para resolver muitos outros problemas ligados à inteligência artificial, como auxiliar no desenvolvimento de assistentes virtuais, carros autônomos e outras máquinas que tenham que interagir com humanos. Mas o trabalho não deixa de ressaltar a distância que estamos de uma AGI prática: o AlphaStar precisou, por exemplo, de uma quantidade muito maior de dados que os jogadores humanos para alcançar o mesmo nível de habilidade. Ainda assim, toda grande revolução tecnológica começou em algum lugar, e essa área de pesquisa parece estar no caminho certo.

Sobre o autor

1 comentário em “AlphaStar, o algoritmo que se tornou profissional em um jogo de estratégia em tempo real”

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.