LLMs com acesso a memória externa se comportam como máquinas de Turing universais

Os modelos do tipo LLM, como aqueles da família GPT, Llama e o Bard, têm impressionado a comunidade de inteligência artificial e o público em geral por sua alta capacidade de abstração. Antes deles, os modelos de processamento de linguagem só conseguiam realizar uma tarefa por vez, sem muita complexidade. O desempenho superior dos LLMs se deve em grande parte a sua capacidade de “pensar” de forma lógica, seguindo uma linha de raciocínio.

Entretanto, esses novos modelos são limitados pelo tamanho do prompt de entrada que eles são capazes de processar. Mesmo as versões mais robustas ainda apresentam um limite máximo, o que impões limites também à representação que eles podem criar e, por consequência, às tarefas qque podem executar. Pesquisadores têm buscado contornar este problema adicionando aos LLMs um loop de feedback externo, onde as saídas do modelo são tratadas e fornecidas como entradas que servem para condicionar suas novas saídas com base em seus resultados anteriores.

Desenvolvendo uma solução nesta linha, pesquisadores do Google Brain e da Universidade de Alberta, no Canadá, apresentaram um trabalho onde eles adicionaram a um LLM uma memória externa do tipo leitura-gravação, com o objetivo de verificar se ele poderia emular qualquer algoritmo com base em qualquer entrada, o que o caracterizaria como uma máquina de Turing universal. O modelo base utilizado foi o Flan-U-PaLM 540B, treinado pelo Google, que foi conectado à memória associativa através de um “computador de instrução armazenada”, que permite que os prompts de entrada e saída do modelo possam interagir em um loop. Esta memória externa pode ser considerada um dicionário que armazena em que parte da memória cada trecho de informação está presente. Cada etapa do loop usa simples padrões de expressão regular para encontrar correspondências. Esta técnica mostrou que o sistema se comportou como uma máquina universal de Turing, sendo capaz de gerar as saídas apropriadas para entradas de teste selecionadas.

O grande ponto positivo do trabalho é que o sistema não depende de nenhum treinamento adicional do modelo de linguagem, apenas da criação do computador de instrução armazenada que gerencia a comunicação entre o modelo e sua memória externa. Além disso, a conclusão mais impactante é que os LLMs, ainda que limitados pelo tamanho do prompt e que utilizem pesos fixos, já são computacionalmente universais, desde que tenham acesso a memória externa infinita.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.