Representação única multimodal ajuda inteligência artificial a aprender conceitos compartilhados entre vídeo e áudio

A técnica usa um mesmo espaço de representação para que um conceito presente em um clipe de vídeo e um clipe de áudio possa ser codificado da mesma maneira, assim aproximando a tarefa de representar conceitos da forma humana.