A cada poucos meses, alguma das maiores empresas trabalhando com inteligência artificial publica um novo modelo robusto de processamento de linguagem natural. Esta foi a vez da Meta, o conglomerado de que faz parte o Facebook, anunciar o OPT-175B, ou Open Pretrained Transformer, um modelo que, como o nome deixa claro, possui 175 bilhões de parâmetros, e que foi treinado com datasets públicos. Ainda que realize tarefas similares, o diferencial para seu grande rival, o GPT-3 da OpenAI, lançado em 2020, é que o OPT está sendo publicado em formato aberto – tanto o artigo quanto o código estão livremente disponíveis para pesquisadores.
Mas não é só isso. O novo modelo também foi treinado em um framework desenvolvido in-house, que usa a API Fully Sharded Data Parallel (FSDP) da Meta, junto com o processador Megatron-LM da NVIDIA. Como resultado, o OPT-175B, ainda que tenha tamanho compatível com o GPT-3, consumiu 1/7 do equivalente de carbono na etapa de treinamento, o que é muito bem-vindo já que a tendência atual é que os modelos consumam cada vez mais energia. Agora, junto com o modelo treinado em vários tamanhos diferentes – de 125 milhões até 175 bilhões de parâmetros -, a empresa está disponibilizando o código para treinar e colocar o modelo em produção usando 16 GPUs NVIDIA V100, que é considerada uma demanda de hardware relativamente baixa.
A Meta considera que a publicação do modelo é essencial para a evolução da área, já que pesquisadores podem interagir, estudar, testar e propor melhorias em um modelo que foi originalmente treinado com uma configuração de hardware que não está disponível para todos. Mas por se preocupar com o uso indevido, será preciso comprovar o status de pesquisador para obter uma licença de uso. Assim, a empresa espera não somente melhorias no desempenho do modelo, mas também nas próprias regras que devem guiar o uso responsável da inteligência artificial a partir deste momento em que ela se torna tão poderosa.
O acesso ao modelo completo pode ser requisitado aqui.