OpenAI apresenta GPT-4o, “omni”-modelo que interage por voz em tempo real
O modelo impressiona por sua fluência e coerência ao interagir com pessoas por voz em tempo real, além de suas capacidades multimodais.
O modelo impressiona por sua fluência e coerência ao interagir com pessoas por voz em tempo real, além de suas capacidades multimodais.
O modelo, baseado em transformers, permite facilitar o processo de desenvolvimento de novos produtos químicos, reduzindo o tempo necessário, custos, e a necessidade de testes com animais.
Expandindo sobre seu predecessor, além de permitir gerar áudio com prompts de texto, a nova versão também permite usar prompts no formato de áudio, para maior controle do processo de geração.
O sistema pode gerar vídeos realistas de uma cabeça falante com apenas uma imagem, animando os lábios e a expressões faciais em sintonia com um clipe de áudio.
O modelo ultrapassa seus concorrentes open-source nas principais categorias de avaliação de desempenho de LLMs.
O modelo é composto por uma arquitetura do tipo mix-of-experts otimizada que lhe proporciona melhorias de qualidade e performance.
Utilizando apenas 15 segundos de áudio como referência, o modelo é capaz de replicar a voz do interlocutor, transferindo para outros textos e até outros idiomas.
O modelo apresenta maior fidelidade ao prompt, capacidade ampliada de entender cenas complexas e melhor entendimento gramatical.
Seguindo a tendência do mercado, o Claude 3 tem capacidade multimodal e habilidades cognitivas superiores, além de 3 versões que procuram balancear performance e desempenho.
Introduzindo deformações nos cantos das imagens, os pesquisadores conseguiram treinar sistemas capazes de processar a informação desta “visão periférica”.