Rede neural desenvolvida por neurocientistas capaz de classificar 11 emoções a partir de imagens

As teorias em evidência no mundo científico dizem que as emoções servem para dirigir comportamentos ancestralmente ligados à sobrevivência. Se ela estiver correta, é de se esperar que as emoções sejam conferidas por características ambientais apreendidas pelos sentidos. Para testar a relevância de estímulos visuais na evocação de emoções, cientistas da área de psicologia, neurociência e genética comportamental da Universidade do Colorado e da Universidade de Duke, na Carolina do Norte, desenvolveram uma rede neural convolucional que se mostrou capaz de categorizar imagens de natureza diversa em 11 categorias emocionais distintas. Eles então usaram esses resultados para correlacionar a valência das imagens com padrões de atividade do cérebro, de forma a demonstrar que o estímulo visual era responsável por ativar uma resposta emocional específica.

Os pesquisadores usaram um modelo popular de reconhecimento de objetos, AlexNet, como base para desenvolver seu próprio modelo. Essa rede foi desenvolvida para imitar o processamento de informação na corrente visual humana. No novo trabalho, a rede foi usada para reconhecer a categoria emocional de mais de 135.000 imagens extraídas de vídeos (as quais tiveram seu conteúdo emocional rotulado por 853 participantes) através do retreinamento dos pesos da sua última camada. A nova estrutura foi batizada de EmoNet.

A arquitetura da rede neural desenvolvida. Fonte: artigo original.

A rede foi testada com mais de 24.000 imagens de 400 vídeos não utilizados durante o treinamento. A precisão da rede para as 5 categorias mais prováveis foi de 63%, e para a categoria no topo foi de 23%; a métrica AUC geral, que mede o trade-off entre positivos falsos e verdadeiros (quanto mais próximo de 1, melhor), foi de 0.75. Os pesquisadores consideram esses resultados suficientes para discriminar as emoções com a resolução estatística necessária.

Clusterização das imagens e das categorias através das camadas da rede. Fonte: artigo original.

O trabalho mostrou que é mais fácil classificar emoções com alta valência visual, como ansiedade, desejo sexual e horror, enquanto que outras emoções com alta intersecção, como diversão, adoração e alegria, costumam se confundir, o que indica que elas têm características visuais similares, que precisam de mais informações, como dinâmica temporal, para uma classificação mais refinada. Uma análise mais profunda da rede também mostrou que tanto características visuais de “low-level”, como cor ou espectro espacial, quanto aquelas de “high-level”, como a presença de objetos ou faces, estão relacionadas à categorização de diferentes emoções, o que questiona a premissa atual de que só elementos de “high-level” têm significado emocional. Entretanto, o desempenho da rede na classificação das imagens de teste se mostrou dependente da combinação de várias características com conteúdo variável de abstração, sendo impossível correlacionar diretamente o nível (low –> high) das características com as emoções correspondentes, mostrando que a relação entre esses níveis é complexa e não-linear. O modelo também se mostrou dependente da grande maioria dessas características, o que evidencia que cada uma contribui de forma predominantemente independente. No final da avaliação, a rede se mostrou capaz de discriminar entre 11 categorias emocionais distintas. Em um teste subsequente, o modelo foi capaz de classificar o gênero de um filme (comédia romântica, terror ou ação) a partir de seu trailer com 71% de precisão.

Na fase seguinte do projeto, os pesquisadores demonstraram que a valência das imagens conforme classificação pelo modelo correlacionou com padrões de ativação cerebral de participantes que olhavam para as imagens, com índices variando de 0.16 a 0.45 (onde 1 indica correlação perfeita). Isso indica que a rede EmoNet é de fato capaz de identificar padrões emocionais verdadeiros a partir de imagens.

Esse trabalho demonstra o potencial dos modelos de machine learning para entender aspectos relacionados à natureza biológica de sistemas de classificação naturais. Se por um lado nós humanos somos capazes de fazer inferências rápidas sobre a valência emocional de estímulos ambientais, por outro esse processo ocorre de forma inconsciente, sem que sejamos capazes, na maioria das vezes, de dizer o que guiou nossa decisão. No final das contas, a interação entre machine learning e neurociência pode ajudar a elucidar o funcionamento do nosso cérebro, o que pode ser usado para desenvolver modelos computacionais ainda mais eficientes.

A pesquisa foi publicada no final de julho na revista Science Advances.