GPT-3 é o novo modelo de NLP que chega a “pensar”

A área de processamento de linguagem natural (NLP, natural language processing) tem usado modelos cada vez mais generalistas. Os modelos mais recentes, baseados em estruturas recorrentes ou de transformers, são pré-treinados em um dataset não rotulado, como uma coleção de textos, para assim incorporar em si o conhecimento linguístico geral. Entretanto, isto por si só não lhes garante boa performance para realizar alguma tarefa relacionada à língua. Numa segunda etapa, eles devem ser “lapidados” (num processo conhecimento como fine-tuning) para serem capazes de completar tarefas específicas como traduções, a classificação de textos ou para responder perguntas usando um texto base como fonte de conhecimento.

Apesar de esta abordagem ter alcançado desempenhos impressionantes, a ideia de fine-tuning limita a aplicação prática destes modelos, e a própria evolução do conceito de inteligência artificial. Em primeiro lugar, o fine-tuning exige que tenhamos um dataset rotulado para que o modelo possa aprender o que fazer durante a tarefa. Em segundo, em muitos casos este processo resulta em um modelo específico demais, incapaz de generalizar em situações às vezes levemente diferentes. Em terceiro, não é assim que humanos aprendem; via de regra, nós conseguimos generalizar através de poucos exemplos, ou com simples instruções sobre a tarefa.

A evolução dos modelos baseados em transformers vem ganhando força como uma forma de contornar estes problemas. Mais especificamente, o aumento do número de parâmetros dos modelos vem mostrando uma correlação consistente com o seu desempenho em diferentes tarefas de NLP. Em 2019, a empresa OpenAI lançou o GPT-2, um modelo de linguagem baseado em transformers contendo 1,5 bilhão de parâmetros, que foi treinado com texto de 8 milhões de páginas da internet, com o simples objetivo de predizer a próxima palavra dado um prompt inicial. Na época, este modelo impressionou pela sua capacidade de gerar textos consistentes; um usuário poderia, por exemplo, iniciar um parágrafo de uma notícia e observar o modelo completá-lo, incluindo referências verdadeiras a informações do mundo real, por exemplo. Entretanto, suas capacidades estavam limitadas a este exercício criativo. Isto mudou com o lançamento agora em junho da nova versão, o GPT-3.

Apresentado em um artigo, o GPT-3 tem a mesma estrutura que seu antecessor, mas é cem vezes maior, tendo 175 bilhões de parâmetros. Além da habilidade de gerar texto, o novo modelo foi testado em várias outras tarefas, em três condições diferentes: few-shot learning, onde o modelo tem acesso a poucos exemplos do que deve realizar; one-shot learning, onde recebe um único exemplo; e zero-shot learning, onde recebe somente a instrução. Pela primeira vez, um modelo de NLP treinado exclusivamente na compreensão da língua, sem qualquer etapa de fine-tuning e em condições de zero-shot learning, apresentou resultados promissores na realização de tarefas diversas como responder a trívias, decifrar palavras com as letras misturadas, usar palavras novas em frases após ver sua definição uma única vez, e até realizar operações aritméticas simples e escrever código. Alguns exemplos impressionantes podem ser checados na página de demonstração, onde também é possível entrar numa lista de espera para usar a API do modelo.

O que chama a atenção é que estas tarefas não parecem exigir uma simples predição da próxima palavra, apesar de esta continuar sendo a base para a função objetivo que o modelo busca otimizar. Desta vez, algum nível de esforço cognitivo parece estar envolvido. Por isso, muitos profissionais da área chegaram a tratar o modelo como o início da inteligência geral artificial. Se isto for verdade, o GPT-3 deu um passo na compreensão do que é inteligência. Nos últimos anos, alguns pesquisadores defendiam a ideia de que habilitar uma máquina a pensar exigiria conhecimento detalhado da mente humana, enquanto que outros acreditavam que bastariam modelos com capacidade computacional suficiente para que a inteligência surgisse naturalmente. O GPT-3 pode ser uma evidência a favor do segundo grupo, ainda mais se considerarmos que, em relação à sua versão anterior, não houve qualquer evolução metodológica: ele é apenas maior, treinado com mais dados. Há ainda muita margem para melhorias.

Talvez os próximos anos mostrem que isto seja exagero, já que o desempenho do modelo em algumas tarefas linguísticas ainda é baixo em termos absolutos, mas se deve reconhecer que, quando o modelo performa bem, ele performa muito bem. Sendo ou não uma grande revolução em NLP, fato é que o GPT-3 é uma revolução.