ImageBind é a IA da Meta que processa seis modais de informação de forma conjunta

Os modelos multimodais, aqueles capazes de processar informações de diferentes canais, como por exemplo texto, imagem e áudio, têm se tornado cada vez mais populares. No início do mês, a Meta anunciou o lançamento do ImageBind, um modelo que leva a multimodalidade para outro patamar, integrando seis canais informacionais de forma holística, sem a necessidade de organizar e rotular os dados brutos. O modelo integra dados no formato de texto, imagem/vídeo, áudio, profundidade, calor (na forma de radiação infravermelha) e unidades de medida de inércia (ou IMU, na sigla em inglês), que representam movimento e posição. Desta forma, uma máquina pode conectar objetos em um foto com o som que eles fazem, seu formato tridimensional, sua temperatura, e a forma como se movem.

Ao contrários dos sistemas de IA típicos, o ImageBind constrói um espaço de embedding conjunto para todas as modalidades, de forma que, nesta espaço abstrato, quaisquer das modalidades relacionadas a, digamos, um trem em movimento, têm a mesma representação. Esta abordagem é importante porque, na prática, é difícil encontrar ou até mesmo construir datasets contendo todas essas informações paralelas. Para treinar o modelo, os pesquisadores utilizaram imagens como a “ponte” entre todas as outras modalidades, já que é mais fácil encontrar dados pareados com, por exemplo, imagens e sua descrição, ou uma trilha de áudio associada aos frames de um vídeo. Essa escolha se mostrou eficiente, já que o ImageBind é capaz de associar áudio e texto, por exemplo, sem tê-los visto juntos durante o treinamento.

A avaliação das capacidades do modelo mostrou ainda novas habilidades emergentes, aquelas que não existem em modelos menores mas surgem em versões maiores. É o caso de reconhecer qual áudio combina mais com uma imagem, ou predizer a profundidade de uma cena a partir de uma foto. Este comportamento está relacionado ao tamanho do encoder de imagem, o que sugere que modelos de visão mais robustos podem beneficiar tarefas não relacionadas a visão em modelos multimodais.

Em sua aplicação prática, o ImageBind permite diferentes modalidades como entrada ou saída, o que abre novas possiblidades para criadores, que agora podem parear uma foto com uma trilha de áudio adequada, ou com um modelo tridimensional para trabalhar com animações, para citar alguns exemplos.

A Meta acredita que, para além das capacidades anunciadas, o trabalho com o ImageBind mostra ser possível integrar diferentes modalidades informacionais com um único modelo, o que deve permitir incluir outros modais como toque, discurso, cheiro e até sinais de ressonância magnética funcional do cérebro. Isto deve ajudar a fortalecer o desenvolvimento de modelos de inteligência artificial centrados na experiência humana.

Junto com o anúncio, a Meta disponibilizou um artigo e o código em formato aberto.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.