OpenAI apresenta GPT-4o, “omni”-modelo que interage por voz em tempo real

O evento mais notável da semana passada foi a apresentação pela OpenAI do GPT-4o (“o” para “omni”), um modelo inovador que integra entradas de texto, áudio, imagem e vídeo, e produz saídas em texto, áudio e imagem. Seu aspecto mais chamativo é a capacidade de interação em tempo real, que permite respostas quase imediatas a entradas de áudio, com melhorias notáveis em velocidade e custo. Este modelo se destaca em tarefas multilíngues e demonstra uma compreensão superior de visão e áudio em comparação com seus antecessores.

A introdução do GPT-4o representa um avanço significativo, consolidando várias modalidades em um único modelo treinado de ponta a ponta. Esta abordagem holística permite que o GPT-4o capture nuances como tom e emoção em áudio, tornando as interações mais naturais. As melhorias de eficiência tornam-no acessível a um custo menor e com desempenho mais rápido, estabelecendo um novo padrão para grandes modelos de linguagem.

O GPT-4o também apresenta desempenho impressionante em vários benchmarks. Ele iguala o GPT-4 Turbo em tarefas de texto em inglês e codificação, superando-o em avaliações multilíngues, de áudio e de visão. A versatilidade e a compreensão aprimorada do modelo em diferentes idiomas e entradas sensoriais representam um avanço substancial nas capacidades da IA.

No campo da segurança, a OpenAI implementou medidas robustas, incluindo filtragem de dados de treinamento e refinamento de comportamentos do modelo. Testes extensivos externos e equipes de avaliação foram conduzidos para mitigar riscos potenciais associados às novas modalidades, garantindo que o GPT-4o opere dentro de limites seguros e éticos.

Atualmente, as funcionalidades de texto e imagem do GPT-4o estão sendo implementadas no ChatGPT, com planos para introduzir gradualmente suas capacidades avançadas de áudio e vídeo. Esta abordagem faseada permite que a OpenAI assegure a robustez técnica e a segurança antes da implantação completa. Desenvolvedores podem acessar o GPT-4o via API, aproveitando suas capacidades aprimoradas a um custo reduzido.

Para ver (e se impressionar com) demonstrações do modelo interagindo com usuários via smartphone, acesse a página oficial de lançamento.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.