Representação única multimodal ajuda inteligência artificial a aprender conceitos compartilhados entre vídeo e áudio

Nós humanos somos capazes de interpretar o mundo através dos nossos vários sentidos. Se vemos, ouvimos ou tocamos um pássaro, por exemplo, todos esses modais de informação convergem para o mesmo conceito. Em outras palavras, um conceito pode ser apreendido mesmo com dados de diferente natureza. Até então, a inteligência artificial consegue interpretar dados de diferente natureza para gerar a interpretação de um conceito em um formato que ela possa compreender, mas esta interpretação vai ser diferente para cada modal informacional, sem relação com aquela gerada por outro.

Recentemente, pesquisadores do Instituto de Tecnologia de Massachusetts (MIT), nos Estados Unidos, apresentaram uma técnica que permite a uma inteligência artificial representar dados de um mesmo conceito sendo a informação original visual ou na forma de áudio. Mais especificamente, o método habilita uma representação única para uma ação presente em um vídeo e sua descrição correspondente em um clipe de áudio.

Este trabalho faz parte da área de pesquisa conhecida como aprendizagem de representação, em que modelos de machine learning aprendem a converter dados brutos em uma forma útil para realizar tarefas subsequentes. É assim que, por exemplo, um modelo consegue identificar objetos em uma imagem. Estas representações, geralmente chamadas de embeddings, costumam formar clusters quando os dados originais representam objetos similares. A novidade da pesquisa do MIT foi usar um único espaço de embedding para codificar informação dos dados de diferentes modalidades. Assim, tanto a imagem quanto o áudio de determinada ação ganhavam a mesma representação.

O método foi testado alimentando o modelo com pesquisas no formato de áudio, que deveriam retornar os trechos dos vídeos que continham o resultado desejado. Os resultados foram melhores do que aqueles dos métodos tradicionais com que ele foi comparado.

Na sequência, os autores esperam integrar mais modalidades de informação, aproximando, e talvez até ultrapassando, a capacidade humana de interpretar o mundo ao seu redor. No futuro, pesquisas como essa devem permitir que robôs e máquinas ganhem maior autonomia em sua interação com o ambiente.

Post Views: 917

Representação única multimodal ajuda inteligência artificial a aprender conceitos compartilhados entre vídeo e áudio

Sobre o autor

Denny Ceccon

Deixe um comentário Cancelar resposta