GPT-4 é usado para explicar o funcionamento de neurônios de modelos de linguagem

A cada nova versão, os modelos de linguagem têm demonstrado capacidades cognitivas impressionantes, mas, sendo baseados em redes neurais, eles sofrem de um problema bastante conhecido desta família de algoritmos: a interpretabilidade. É difícil explicar em termos de seu comportamento interno como ele toma decisões ao longo do caminho da informação, e assim também fica difícil encontrar a raiz de problemas que podem levá-los a apresentar resultados indesejados. Uma forma simples de endereçar a questão é fazer a inspeção manual dos neurônios que compõem a rede, observando as transformações que eles promovem nos dados. Entretanto, esta abordagem perde a efetividade rapidamente em função da escala, já que os modelos de linguagem mais atuais têm bilhões de parâmetros.

Como uma das empresas mais engajadas nessa área de pesquisa, a OpenAI desenvolveu uma nova estratégia usando sua própria tecnologia. Em um trabalho publicado em maio, eles detalham como utilizaram o GPT-4, seu modelo mais recente, para explicar e pontuar o funcionamento de neurônios de outros modelos de linguagem. O trabalho focou na versão 2 do próprio GPT, que tem cerca de 300 mil neurônios. A metodologia compreende três etapas que são realizadas para cada neurônio do modelo. Na primeira, o GPT-4 deve explicar o comportamento do neurônio em observação mostrando quais partes do texto provocaram sua ativação, como por exemplo “palavras relacionadas a determinada ação”. Na segunda, o GPT-4 tenta simular o que um neurônio ativado pela explicação anterior faria. Na última, a simulação é comparada com o resultado real, e assim a explicação recebe uma pontuação.

Apesar de as pontuações terem sido relativamente baixas, os autores ressaltam a importância de provar a viabilidade do conceito, pois agora é possível usar outras técnicas de machine learning para obter explicações melhores. Por exemplo, eles já conseguiram resultados superiores fazendo iterações nas explicações do GPT-4, usando modelos maiores para dar as explicações, e mudando a arquitetura do modelo que está sendo explicado.

O trabalho ainda apresenta outras limitações da técnica. Por exemplo, dentre os 1000 neurônios com maior pontuação, a maioria não mostrou ter características muito interessantes; por outro lado, muitos neurônios interessantes não foram identificados pelo GPT-4. Entretanto, este é um primeiro passo importante no caminho certo, e ainda serve para mostrar como os modelos generativos podem ter aplicações inusitadas. Como parte dos esforços da OpenAI em fomentar a transparência na inteligência artificial, a empresa está disponibilizando o código, o dataset e as ferramentas de visualização em formato open source.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.