Pesquisadores desenvolvem método para habilitar IA com visão periférica
Introduzindo deformações nos cantos das imagens, os pesquisadores conseguiram treinar sistemas capazes de processar a informação desta “visão periférica”.
Introduzindo deformações nos cantos das imagens, os pesquisadores conseguiram treinar sistemas capazes de processar a informação desta “visão periférica”.
O GPT-4 foi avaliado em três tarefas que servem para medir o pensamento criativo, superando o desempenho humano em todos eles.
Disponível nas versões 2B e 7B, os modelos da família Gemma disponibilizam à comunidade a mesma tecnologia por trás do Gemini, mas em formato open-source.
Além de ter qualidade similar ao Gemini 1.0 Ultra com performance superior, a versão Pro do Gemini 1.5 tem a maior janela de contexto já reportada para LLMs.
O Sora emprega uma arquitetura chamada de transformer de difusão para produzir vídeos de alta qualidade de até um minuto de duração, a partir de prompts de texto.
O modelo tem como grande novidade produzir sons e vozes, contextualizadas em um ambiente por exemplo, através de prompts de texto.
Apresentando melhorias significativas em relação ao seu antecessor, o Imagen 2, que já pode ser utilizado, emprega tecnologia de ponta para gerar imagens mais realistas.
Estudo sugere que, ao invés de apenas refletir padrões estatísticos presentes nos dados, os grandes modelos de linguagem constroem representações inernas do mundo.
IA usa autoaprendizagem para resolver problemas de geometria complexos
Ao tratar toda tarefa visual como geração de imagens, o modelo ganha habilidades generalistas assim como a IA generativa de texto.