No mundo da inteligência artificial, os modelos de linguagem como o ChatGPT têm dominado a atenção do público nos últimos meses, graças ao seu domínio impressionante da língua e sua habilidade de exercer várias tarefas cognitivas com desempenho igual ou superior a um ser humano. Entretanto, seu domínio de atuação é limitado pela forma textual, o que impede seu uso para inferência no mundo real, como para resolver problemas de robótica por exemplo.
Para fazer a ponte entre esses dois mundos, pesquisadores do Google e da Universidade Tecnológica de Berlim desenvolveram uma abordagem que eles chamaram de modelo de linguagem personificado. A ideia é utilizar os modelos de linguagem que já estão disponíveis para processar dados multimodais, conectando inputs textuais com visuais, e assim habilitar a inteligência artificial a processar dados do mundo real originados de sensores contínuos. A estratégia foi concretizada na forma do PaLM-E, um modelo multimodal personificado que é capaz de executar tarefas como planejamento de manipulação robótica sequencial e responder perguntas relacionadas a imagens.
O treinamento do modelo envolveu produzir encodings dos dados dos diferentes modais em conjunto, utilizando um modelo de linguagem pré-treinado (no caso, o modelo PaLM também publicado pelo Google), para interpretar esses encodings e tomar decisões baseadas neles. O maior modelo desenvolvido, contendo 562 bilhões de parâmetros, além de executar tarefas robóticas, é um generalista visual-textual que atingiu os maiores resultados já reportados no OK-VQA, um benchmark para compreensão de imagens. Vários exemplos, incluindo trabalhos mecânicos realizados por robôs dotados da inteligência artificial, podem ser visualizados na página do projeto.
Ao que tudo indica, os modelos multimodais serão o grande destaque nos próximos meses, usando os modelos de linguagem como base para a execução de tarefas cada vez mais complexas.