PaLM-E, IA multimodal do Google, aplica modelos de linguagem para executar tarefas físicas e visuais
A estratégia que o modelo aplica envolve utilizar um modelo de linguagem pré-treinado para alimentá-lo com encodings de diferentes modais de informação, habilitando a inteligência artificial a executar tarefas que dependem do canal visual.