Databricks apresenta DBRX, novo estado-da-arte para LLMs abertas

A competição entre as LLMs open source ganhou um novo jogador relevante com o lançamento do DBRX, novo modelo apresentado pela Databricks. No anúncio feito no final de março, a empresa garante que o DBRX representa o novo estado-da-arte para LLMs abertas em vários benchmarks de processamento de linguagem natural, sendo especialmente capacitado em raciocínio matemático e para gerar código. Além disso, ele proporciona capacidades para que usuários possam gerar seus próprios LLMs que antes eram restritas para modelos fechados. O modelo está sendo disponibilizado na sua forma base (DBRX Base) e fine-tuned (DBRX Instruct).

O DBRX é um modelo baseado em transformer do tipo decoder-only, treinado na tarefa de predizer o próximo token. Ele se beneficia de sua arquitetura do tipo mixture-of-experts (MoE), tendo como grande diferencial que, dos seus 132 bilhões de parâmetros, apenas 36 bilhões estão ativos para cada entrada. Em comparação com outros modelos abertos, ele tem mais experts menores, utilizando 4 dos 16 disponíveis a cada processamento. Isto tem um impacto significativo na sua performance.

Em termos de qualidade, o DBRX alcançou o topo do ranking para os modelos abertos avaliados, conforme o leaderboard mantido pelo Hugging Face. Em comparação com modelos fechados, ele ultrapassou o GPT-3.5, e se mostrou competitivo Gemini 1.0 Pro e o Mistral Medium.

Graças à estratégia de MoE adotada, o DBRX se mostra especialmente eficiente para treinar. Isto é importante tanto do lado da eficiência energética, quanto na geração de novas versões do modelo, além de facilitar o processo de fine-tuning por usuários interessados. Há também um impacto na inferência, o que garante um balanço melhor no trade-off entre qualidade e rapidez de predição.

O DBRX pode ser acessado através do Hugging Face ou da interface fornecida pela própria Databrics.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.