Gemma 3: Multimodalidade na Próxima Geração de Modelos de IA Abertos

Na semana passada, a Google anunciou o lançamento do Gemma 3, a mais recente versão de sua família de modelos abertos que foi baixada mais de 100 milhões de vezes desde seu lançamento inicial. Esta nova iteração representa um avanço significativo nas capacidades de IA, baseando-se em versões anteriores com vários recursos altamente solicitados. Os modelos Gemma 3 estão disponíveis em quatro tamanhos (1B, 4B, 12B e 27B) e vêm tanto em versões pré-treinadas que podem ser ajustadas para casos de uso específicos quanto em variantes instruídas para uso geral.

Entre os aprimoramentos mais notáveis no Gemma 3 está seu suporte à multimodalidade, que permite ao modelo processar entradas visuais juntamente com texto. Esta funcionalidade é alimentada por um codificador de visão integrado baseado em SigLIP, permitindo que o Gemma analise imagens, responda a perguntas sobre conteúdo visual, compare imagens, identifique objetos e até interprete texto dentro de imagens. O modelo pode lidar com imagens de alta resolução e não quadradas através de um novo algoritmo de janela adaptativa que segmenta as imagens de entrada de forma eficaz. Além disso, o Gemma 3 expandiu sua janela de contexto para acomodar até 128.000 tokens e melhorou suas capacidades multilíngues para suportar mais de 140 idiomas.

O desenvolvimento do Gemma 3 envolveu metodologias de treinamento sofisticadas, incluindo uma combinação de destilação, aprendizado por reforço e fusão de modelos. O processo de pré-treinamento utilizou TPUs do Google com o Framework JAX e incorporou quantidades variáveis de tokens de treinamento com base no tamanho do modelo: 2 trilhões para o modelo 1B, 4 trilhões para o modelo 4B, 12 trilhões para o modelo 12B e 14 trilhões de tokens para o modelo 27B. Os refinamentos pós-treinamento incluíram destilação de modelos de instrução maiores, aprendizado por reforço a partir de feedback humano (RLHF), aprendizado por reforço a partir de feedback de máquina (RLMF) para raciocínio matemático aprimorado, e aprendizado por reforço a partir de feedback de execução (RLEF) para melhorar as capacidades de codificação. Essas abordagens abrangentes posicionaram o Gemma 3 como o principal modelo compacto aberto no LMArena com uma pontuação de 1338.

O ecossistema Gemma expandiu-se ainda mais com a introdução do ShieldGemma 2, um classificador de segurança de imagem 4B construído com a tecnologia Gemma 3. Este modelo especializado gera rótulos em categorias-chave de segurança, permitindo moderação eficaz para imagens sintéticas criadas por modelos de geração e imagens naturais que podem servir como entradas para Modelos de Visão-Linguagem como o Gemma 3.

Desenvolvedores e pesquisadores que desejam explorar as capacidades do Gemma 3 podem começar imediatamente através de várias vias: experimentando diretamente via Google AI Studio, baixando os pesos do modelo do Hugging Face e Kaggle, ou integrando os modelos usando várias ferramentas de desenvolvimento, incluindo Hugging Face Transformers, Ollama, a nova biblioteca Gemma JAX, MaxText, LiteRT, Gemma.cpp, llama.cpp e Unsloth. As opções de implantação são igualmente diversas, abrangendo Google GenAI API, Vertex AI, Cloud Run, Cloud TPU e plataformas Cloud GPU.

Post Views: 189

Gemma 3: Multimodalidade na Próxima Geração de Modelos de IA Abertos

Sobre o autor

Denny Ceccon

Deixe um comentário Cancelar resposta