Evolução da aprendizagem associativa em ambiente virtual fornece novos insights para a inteligência artificial

Apesar do desempenho dos sistemas baseados em inteligência artificial ter melhorado ano após ano, esses sistemas ainda “aprendem” passando por etapas exaustivas de treinamento, onde, via de regra, quanto mais dados, melhor. Já os humanos, e de fato muito animais, costumam aprender com base em muito menos dados, usando “algoritmos” que conectam novas experiências com o conhecimento que já possuem. Uma das formas de gerar novos conhecimentos é chamada de aprendizagem associativa. O exemplo clássico desse tipo de aprendizagem é aquele do experimento onde, antes de dar comida a um cachorro, o dono chacoalha um sino; depois de poucas exposições, o cachorro começa a salivar ao ouviu o sino, sem ter visto a comida. A inteligência artificial ainda não é capaz de aprender dessa forma; acredita-se, inclusive, que a ausência dessa habilidade é o que ainda separa a inteligência artificial da muito mais flexível inteligência humana.

Um dos maiores entraves à incorporação da aprendizagem associativa ao repertório de ferramentas da inteligência artificial é que nós não entendemos direito como a aprendizagem associativa surgiu. Não é possível investigar esse fenômeno a partir de fósseis, e estudar sua evolução em organismos vivos exigiria o acompanhamento de inúmeras gerações, o que é proibitivo em termos de tempo. Mas biólogos e cientistas da computação da Universidade do Estado de Michigan acabam de publicar um artigo descrevendo o estudo da evolução da aprendizagem associativa em um ambiente virtual. Eles partiram do princípio de que o processo evolutivo é, na verdade, um algoritmo, que funciona com base em três princípios: 1) os organismos se reproduzem e passam as características que desenvolveram, incluindo seu algoritmo comportamental, para a próxima geração; 2) esse processo de herança está sujeito a mutações, o que produz variação no comportamento; e 3) o desempenho individual depende da performance do organismo em tarefas comportamentais específicas e determina o resultado da competição por espaço em uma população limitada por tamanho. Com relação à aprendizagem associativa, eles postularam quatro hipóteses: 1) seu surgimento depende de uma base conferida pela evolução anterior de um repertório de comportamentos instintivos que exploram padrões estáveis no ambiente; 2) comportamentos complexos não aparecem e funcionam independentes entre si, mas sim de forma modular, onde os comportamentos instintivos são integrados em formas mais complexas antes do eventual surgimento da aprendizagem associativa; 3) a aprendizagem associativa pode surgir repentinamente em função de pequenas modificações em mecanismos cognitivos preexistentes, em oposição ao surgimento gradual e independente causado pelo acúmulo de mudanças incrementais sob escrutínio da seleção natural; e 4) organismos que desenvolvem aprendizagem associativa não são capazes de mudar associações estabelecidas a não ser que essas mudanças sejam necessárias para o sucesso evolutivo.

O ambiente virtual utilizado no trabalho se tratava de uma plataforma já bem estabelecida para estudos evolutivos in silico. Os organismos digitais eram inseridos em um ambiente contendo uma trilha de nutrientes, e mudanças de direção nessa trilha eram antecedidas por sinais para virar à direita ou à esquerda. Os primeiros organismos não eram capazes nem de se mover. No decorrer do experimento, os pesquisadores observaram surgirem organismos que se moviam de forma aleatória, depois organismos capazes de seguir preferencialmente a trilha de nutrientes, na sequência organismos que, ao encontrar uma curva, eram capazes de tentar várias combinações de caminho até encontrarem o nutriente (ou seja, eram capazes de aprender com os erros), e por fim, surgiram organismos que, após o encontro com um dos sinais de curva e a realização da operação consequente, foram capazes de aprender o significado dos sinais, seguindo a trilha com base nas indicações.

Os resultados do trabalho dão suporte às quatro hipóteses apresentadas anteriormente. O surgimento da aprendizagem foi um resultado evolutivo raro no sistema usado para o estudo, porque muitas linhas de organismos acabavam desenvolvendo outras estratégias comportamentais flexíveis para as quais a aprendizagem apresentava pouca vantagem seletiva. Mas quando a aprendizagem surgia, ela emergia através de uma sequência praticamente estereotipada, com poucas variações. E por fim, o trabalho mostra que junto com a aprendizagem acabava aparecendo um sistema de valores intrínseco, que é em última instância responsável por dar o feedback (positivo ou negativo) para que o organismo seja capaz de consolidar a associação.

As implicações para a inteligência artificial são interessantes. Os autores demonstraram que agentes autônomos capazes de aprender e navegar um ambiente podem ser produzidos por métodos evolutivos, usando cenários onde é o ambiente que promove a evolução da aprendizagem, ao contrário dos métodos tradicionais que dependem de design humano e têm baixa aplicabilidade para novas tarefas. Dadas as características do universo computacional, inteligências artificiais submetidas a esse processo poderiam ser “evoluídas” muito mais rapidamente que sua contraparte biológica, sem que qualquer regra explícita sobre o resultado esperado seja informada. Baseando-se no trabalho de milhões de anos que a natureza já realizou, podemos pensar em evoluir nossos próprios “organismos”, com a diferença que dessa vez, o processo teria um designer para fazer pequenos ajustes na direção desejada. É provável que Darwin nunca tenha imaginado que, ainda que brilhantes, seus insights chegariam tão longe.