PaLM, do Google, é a nova referência para modelos de processamento de linguagem natural

Uma das áreas da inteligência artificial que tem avançado com maior velocidade é a de processamento de linguagem natural. Em 2020, noticiamos o lançamento do GPT-3, o modelo que ainda é considerado por muitos como o estado da arte da área. Mas semana passada, o Google anunciou aquele que deve se tornar a nova referência. Chamado de PaLM (Pathways Language Model), o novo modelo quebra o recorde anterior tanto em número de parâmetros quanto em desempenho.

Como seu nome deixa evidente, o PaLM faz uso do Pathways, uma abordagem criada pelo próprio Google para treinar um único modelo na capacidade de realizar tarefas específicas em diferentes áreas de conhecimento. Desde seu lançamento, o grupo de pesquisa da empresa também desenvolveu o que eles chamaram de sistema Pathways, para orquestrar computação distribuída para aceleradores. Desta forma, foi possível construir o PaLM, que soma 540 bilhões de parâmetros – 3 vezes mais que o GPT-3 -, e treiná-lo usando múltiplos pods de TPU v4. O hardware combinado de treinamento alcançou 6144 chips, sendo o maior sistema baseado em TPUs já desenvolvido, e representa um avanço para os métodos anteriores, que utilizaram apenas clusters de TPU v3 ou GPU. Esta nova configuração também permitiu que o PaLM alcançasse a maior eficiência de treinamento já reportada. Os dados usados no treinamento são uma combinação de datasets em inglês e línguas diversas, incluindo documentos de alta qualidade retirados da internet, livros, artigos da Wikipedia, conversações e códigos do GitHub.

Na etapa de avaliação do novo modelo, os desenvolvedores primeiro testaram tarefas já consagradas na área, envolvendo perguntas e respostas, completar frases, compreensão, inferência e raciocínio de senso comum. Quando treinado na tarefa específica com poucos exemplos (paradigma chamado de few-show), o PaLM superou os demais modelos em 28 das 29 tarefas, em alguns casos significativamente. Depois, eles realizaram um teste com o BIG-bench (Beyond the Imitation Game Benchmark), uma nova coleção contendo mais de 150 tarefas mais desafiadoras para modelos de linguagem. Novamente, o PaLM se saiu melhor que os outros modelos, chegando inclusive a passar a média da pontuação humana. Este experimento também sugeriu que ainda há margem para melhora de desempenho aumentando o tamanho do modelo.

Entre as tarefas que o modelo se saiu bem, se destacam a habilidade de entender causa e efeito, explicar sua linha de raciocínio, gerar código de programação a partir de instruções em formato de texto corrido, traduzir código para outra língua de programação, e até adivinhar o filme com base em emojis e explicar piadas.

Os pesquisadores concluem a apresentação do trabalho dizendo que o PaLM abre o caminho para modelos inovadores combinando capacidade de escalonamento com novas escolhas de arquitetura e esquemas de treinamento. O artigo que detalha o sistema pode ser consultado online.

2 comentários em “PaLM, do Google, é a nova referência para modelos de processamento de linguagem natural”

Deixe um comentário

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.