A Mistral, renomada startup francesa de IA, demonstrou mais uma vez sua perícia no campo da inteligência artificial com o lançamento de dois modelos de linguagem de grande escala (LLMs) inovadores. A empresa, que ganhou reconhecimento por seus poderosos modelos de IA de código aberto, introduziu o Codestral Mamba e o Mathstral, ambos projetados para atender necessidades específicas no panorama da IA em rápida evolução.
O Codestral Mamba, a mais recente oferta da Mistral no campo de geração de código, é construído sobre a inovadora arquitetura Mamba. Esta nova abordagem ao design de modelos de IA visa aumentar a eficiência simplificando os mecanismos de atenção encontrados nos modelos tradicionais baseados em transformadores. O resultado é um modelo que possui tempos de inferência lineares e uma impressionante capacidade de lidar com contextos mais longos. A implementação desta arquitetura pela Mistral produziu resultados notáveis, com o Codestral Mamba 7B demonstrando desempenho superior em casos de uso de produtividade de código, particularmente para projetos de codificação locais.
Uma das características mais notáveis do Codestral Mamba é sua capacidade de processar entradas de até 256.000 tokens, efetivamente dobrando a capacidade do GPT-4o da OpenAI. Esta janela de contexto expandida abre novas possibilidades para desenvolvedores trabalhando em projetos complexos e de grande escala. Em testes de benchmark, o Codestral Mamba superou modelos rivais de código aberto como CodeLlama 7B, CodeGemma-1.1 7B e DeepSeek em testes HumanEval, solidificando sua posição como uma ferramenta formidável no espaço de geração de código.
Complementando o lançamento do Codestral Mamba, a Mistral também revelou o Mathstral 7B, um modelo de IA especificamente adaptado para raciocínio matemático e descoberta científica. Desenvolvido em colaboração com o Projeto Numina, o Mathstral possui uma janela de contexto de 32K e é projetado para se destacar em aplicações relacionadas a Ciências Exatas. A Mistral afirma que o Mathstral supera todos os outros modelos projetados para raciocínio matemático, alcançando resultados significativamente melhores em benchmarks com mais computações em tempo de inferência.
Tanto o Codestral Mamba quanto o Mathstral estão sendo lançados sob a licença de código aberto Apache 2.0, refletindo o compromisso da Mistral em fomentar inovação e colaboração dentro da comunidade de IA. Esta abordagem alinha-se com a filosofia da empresa de construir modelos para propósitos específicos para alcançar compensações ótimas entre desempenho e velocidade. Os modelos estarão acessíveis através da API la Plateforme da Mistral e plataformas populares como GitHub e HuggingFace, permitindo que desenvolvedores e pesquisadores aproveitem, modifiquem e construam sobre estas poderosas ferramentas.