Os melhores modelos de inteligência artificial atualmente disponíveis são especialistas, sendo capazes de realizar apenas uma tarefa, ou poucas tarefas altamente relacionadas. Alguns modelos com um leque de habilidades mais amplo foram propostos, mas eles geralmente primeiro identificam a tarefa de interesse para depois selecionar uma sub-arquitetura especializada naquela tarefa. O desenvolvimento da capacidade para desempenhar tarefas diversas com um mesmo modelo tem sido uma grande barreira na promoção da chamada inteligência artificial geral, que ao contrário dos sistemas atuais, seria capaz de aprender virtualmente qualquer coisa se os dados relacionados estivessem disponíveis, de forma mais parecida com a que nós humanos aprendemos.
Mas há poucos dias, a DeepMind, empresa do grupo Alphabet, publicou um modelo generalista que eles batizaram de Gato. Com a mesma arquitetura de rede, o Gato foi capaz de aprender 604 tarefas diferentes, dentre elas legendar imagens, conversar, jogar jogos de Atari e até mover um braço robótico para empilhar blocos. Isto quer dizer que, depois que o modelo é treinado, são os mesmos pesos que decidem o que a rede deve produzir, independentemente da tarefa específica.
A empresa comenta que a ideia toda foi inspirada pelos grandes modelos de modelagem linguística, tanto que ela usa um transformer como base, e também transforma os dados em uma versão dos tokens empregados em tarefas de processamento de linguagem natural. Uma diferença é que a função de custo do modelo usa uma máscara para que a rede só seja capaz de predizer uma ação ou um texto. Em produção, o modelo recebe um prompt, que serve como demonstração da tarefa que ele deve realizar, e o ambiente fornece a primeira observação, seja uma imagem a ser legendada, uma pergunta a responder ou a tela inicial de um jogo. O resultado é uma ação ou um texto que esteja alinhado com o que se pede. O Gato então aguarda a resposta do ambiente para produzir uma nova resposta de sua parte, e assim promover uma interação.
O modelo foi treinado com vários datasets incluindo textos, imagens e experiências de agentes em ambientes reais e simulados. Apesar de ter semelhanças com o modelo GPT-3, que é especialista em PLN, o Gato contém apenas cerca de 1% da quantidade de parâmetros, o que foi um decisão de projeto para que ele conseguisse controlar um braço robótico em tempo real. Entretanto, mesmo assim, do total de 604 tarefas, ele consegue desempenhar 450 de forma melhor que um expert em 50% das vezes. Suas habilidades devem se tornar ainda mais impressionantes conforme o projeto ganhe escala.
O artigo apresentando o Gato pode ser consultado aqui.