Modelo de ML desenvolve o senso de passagem do tempo

Os humanos possuem um senso nato da passagem do tempo. Se formos apresentados a fotos de um evento sequencial, por exemplo, somos capazes de ordenar essas fotos para representar adequadamente a ordem em que o evento transcorreu. Graças a essa habilidade, nós também sabemos que alguns eventos são irreversíveis; os exemplos geralmente apresentados em aulas de física são o ato de misturar café com leite, ou o ato de quebrar um vaso, ações que nunca podem ocorrer no sentido contrário. Em resumo, nós compreendemos que a “flecha do tempo” possui uma direção, e essa compreensão é essencial para que possamos perceber e manipular o ambiente que nos cerca de forma eficiente e segura.

Os algoritmos de machine learning atuais não possuem esse senso de que o tempo tem direção. Devido a isso, eles só conseguem simular a irreversibilidade de fenômenos quando ela é apresentada como regras que fundamentam o problema que eles estão tentando solucionar. Num jogo de xadrez, por exemplo, o algoritmo deve conhecer as regras para saber que um movimento não pode transcorrer no sentido contrário, e que uma peça removida não volta ao tabuleiro. Um robô encarregado de limpar uma sala deve receber a ordem “não derrube o vaso” para evitar que ele se quebre enquanto tenta otimizar suas tarefas. Um hipotético robô-cirurgião deve ter a instrução de que a ruptura de um vaso sanguíneo pode não ser reparável.

Em função dessas limitações, é bem-vindo o trabalho, disponibilizado no último dia 2 em formato preprint, de pesquisadores da Universidade Ruprecht-Karls (Alemanha), do Instituto de Inteligência Artificial de Quebec (Canadá) e do Instituto de Sistemas Inteligentes Max-Planck (Alemanha). Eles usaram uma estrutura de machine learning que fosse capaz de detectar e quantificar disrupções no ambiente em estudo através da aprendizagem intuitiva da flecha do tempo. Na prática, eles desenvolveram uma função no espaço de estados do sistema, de forma que estados no futuro recebessem valores maiores que estados no passado. Os parâmetros dessa função foram calculados por uma rede neural usando um algoritmo de treinamento estocástico desenvolvido pelos pesquisadores.

Os autores usaram uma forma de aprendizagem por reforço chamada Q-Learning. Para que o algoritmo fosse capaz de simular o efeito da passagem do tempo, eles não passaram nenhuma regra que devesse ser seguida. O sistema apenas recebeu estados do ambiente, sem saber como um poderia levar a outro. Especificamente, o algoritmo foi treinado usando paradigmas como o chamado “mundo 2D com vasos”, onde existe uma malha em duas dimensões com um ponto de entrada e outro de saída, e o objetivo do algoritmo é se locomover do início à saída da malha. Entretanto, algumas células contém “vasos”, e quando o algoritmo propõe a passagem por uma célula desse tipo, o vaso desaparece permanentemente (“quebra”). Usando a função descrita acima, o algoritmo deve inferir quais estados podem ser alcançados a partir de outros. Assim, ele desenvolveu a capacidade de medir a irreversibilidade de algumas ações. Como consequência, o modelo foi capaz de entender que a passagem por alguns estados implicaria que outros não seriam mais alcançáveis.

Os autores demonstram que seu modelo, apesar de não ter sido programado especificamente com esse fim, concorda com as previsões derivadas da física teórica. Em outras palavras, enquanto a física representa a flecha do tempo como verdade fundamental, o modelo desenvolveu uma intuição para o mesmo conceito sem saber a teoria. Os autores dizem que essa habilidade pode ser usada para medir propriedades como a “alcançabilidade” de estados, detectar efeitos colaterais e definir uma “recompensa para a curiosidade” das soluções propostas por algoritmos baseados no seu modelo. Trabalhos futuros na área podem habilitar a inteligência artificial a compreender o conceito de causa e efeito, e assim explorar aplicações em inferência causal, sugerindo soluções que dependam de outras.