Tirando alguns casos excepcionais, nós humanos costumamos ser capazes de produzir boas estimativas sobre a idade das pessoas a partir de suas características físicas. Dado o progresso alcançado pelas redes neurais convolucionais na análise de rostos, essa não parece ser em princípio uma tarefa muito complicada para um algoritmo de machine learning, e de fato muitos modelos com essa arquitetura alcançam desempenhos impressionantes.
Mas o trabalho de dois pesquisadores do Instituto para a Computação Neural da Ruhr-Universität Bochum (RUB), na Alemanha, abordou esse problema usando uma metodologia diferente. Eles se basearam na chamada análise lenta de atributos (slow features analysis, SFA), que é um algoritmo não supervisionado que extrai os atributos que variam lentamente a partir de uma série temporal multidimensional. A pesquisa envolveu treinar o algoritmo usando fotos de rostos de várias pessoas, ordenadas cronologicamente (ou seja, como uma série temporal), e o modelo aprendeu a desconsiderar os atributos irrelevantes à tarefa, como as características pessoais (que variam de pessoa pra pessoa), e reconhecer os atributos relacionados ao seu lento envelhecimento geral.
Esse método já havia sido implementado em problemas supervisionados através do algoritmo chamado de SFA baseada em grafo (GSFA), que usa uma estrutura particular de grafo para extrair os atributos que preservam a similaridade entre os rótulos dos dados, ou seja, quais são as características presentes num conjunto de pessoas com a mesma idade. Para a análise de imagens, que são dados multidimensionais, existe uma variante chamada de GSFA hierárquica (HGSFA), estruturada na forma de uma rede neural multicamadas. Os autores perceberam, entretanto, que essa arquitetura tem como característica descartar prematuramente alguns atributos com variação rápida mas conteúdo informacional relevante à tarefa; então eles propuseram uma nova extensão, chamada de GSFA hierárquica com preservação de informação (HiGSFA), capaz de selecionar tanto os atributos de variação lenta quanto aqueles que mantêm a informação até o final da rede.
Na avaliação de desempenho, o algoritmo errou em média apenas 3,4 anos, superando consideravelmente o desempenho alcançado por pessoas fazendo a mesma avaliação. O resultado, entretanto, não chegou a superar as redes convolucionais mais especializadas na tarefa (que chegam a alcançar menos de 3 anos de erro), mas os autores enfatizam que seu objetivo foi antes desenvolver uma variação mais eficiente de uma estrutura menos popular, que tem propriedades particulares, podendo ter outras aplicações. Como diferencial, a HiGSFA busca simular o sistema visual primata através do processamento hierárquico e da separação da informação em um canal independente. Os pesquisadores esperam que a versatilidade apresentada por sua solução possa ajudar a resolver outros problemas de visão computacional, especialmente aqueles que se encontram na intersecção entre a análise de imagens, a extração não-linear de atributos e a aprendizagem supervisionada.