IA possibilita tarefas utilizando dois modais de informação

Nós humanos interpretamos o mundo através de mais de um modal de informação. Por exemplo, quando vamos atravessar a rua, nós usamos tanto a visão quanto a audição para estimar a distância de um carro que se aproxima, já que sabemos que tanto o que vemos quanto o que ouvimos representam a mesma coisa e se complementam. Os algoritmos de machine learning, por outro lado, têm sido especialistas em uma única modalidade, já que não é trivial juntar dois modais com características informacionais tão distintas. Entretanto, eles poderiam ser muitos mais precisos usando informações de uma natureza mais diversa. Alguns algoritmos crós-modais têm sido desenvolvidos, mas sua performance ainda é baixa em comparação com os modelos especialistas.

Um trabalho apresentado por pesquisadores do Instituto de Tecnologia de Massachusetts (MIT), nos Estados Unidos, apresenta uma ideia nova para desenvolver modelos crós-modais. Eles focaram em um aspecto da inteligência artificial que é chamado de aprendizado de representação, e que trata de transformar os dados de entrada em um formato que seja mais fácil para ser usado em tarefas de classificação ou predição. Segundo este paradigma, uma arquitetura de rede neural é usada para extrair atributos relevantes de um dataset, de forma a representar os exemplos em um espaço latente, onde registros da mesma categoria, por exemplo, estarão próximos um do outro. Este espaço latente é limitado para conter apenas um número fixo de categorias, de forma que o modelo precisa decidir quais são os conceitos mais importantes na codificação da informação original.

A principal novidade introduzida pelos pesquisadores foi a utilização de um espaço latente compartilhado entre os diferentes modais de informação, de forma que, por exemplo, a imagem e o som de um carro sejam codificados na mesma região deste espaço. Assim, o modelo consegue entender que as duas informações estão correlacionadas, e assim aproveitar este conhecimento para fazer predições mais confiantes.

O modelo foi testado com três datasets: um composto por pares vídeo/texto, sendo pequenos clipes e sua legenda; um de pares vídeo/áudio, com clipes acompanhados de faixa sonora; e um com pares imagem/áudio, com imagens e sua legenda falada. Na fase de avaliação, o modelo deveria, por exemplo, encontrar vídeos dada uma entrada de texto, no primeiro caso, e de forma análoga nos demais. O trabalho se mostrou mais eficiente que um outro modelo usado para comparação, sendo adicionalmente capaz de fornecer o “raciocínio” usado em sua decisão.

Os pesquisadores agora querem continuar testando a estratégia em cenários mais complexos, utilizando mais de dois modais de informação ao mesmo tempo. No futuro, é provável que um modelo deste tipo seja o motor que possibilite fazer uma busca no YouTube pelo conteúdo de um vídeo, e não por sua descrição textual, ou a busca por um podcast com base no seu conteúdo, sem depender da sua transcrição.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.