Método é capaz de realizar feature engineering sem supervisão

Uma das etapas cruciais para o bom desempenho de um modelo de machine learning é o feature engineering: a habilidade de escolher quais características dos dados são úteis num modelo de predição. Isso envolve não somente a seleção de boas características mas também muitas vezes sua transformação matemática, para que ganhem relevância na tarefa, ou até a criação de novas características a partir daquelas disponíveis. O feature engineering é ainda mais relevante quando existem poucas instâncias dos dados, como é o caso em muitos estudos clínicos, já que predizer um resultado usando poucas instâncias que descrevem muitas características tende a resultar em overfitting.

O processo de feature engineering geralmente é feito de forma manual, o que lhe torna um dos gargalos do processo, e depende da experiência, do conhecimento tanto acerca de dados quanto da área de estudo, e até da sorte do cientista de dados quando ele está tratando os dados para passar ao modelo. Uma vez que a disponibilidade de dados acerca de qualquer problema só tende a aumentar pela crescente facilidade de coleta, transmissão e armazenamento, essa etapa também tende a se tornar cada vez mais trabalhosa. É só imaginar que hoje já temos sensores que carregamos conosco o tempo todo – como o GPS ou o microfone nos celulares -, mas ainda assim é possível usar sensores específicos para acompanhar o desenrolar de um estudo específico, por exemplo. Na área de pesquisa médica, sensores já são utilizados em dispositivos vestíveis para monitorar informações fisiológicas em tempo real. Se a imensidão de dados certamente permite algoritmos cada vez mais precisos, essa tradução só ocorre depois que os dados corretos são selecionados no meio desse oceano.

No seu trabalho apresentado na conferência Machine Learning for Healthcare, que ocorreu entre os dias 8 e 10 de agosto na Universidade do Michigan, pesquisadores do MIT (Instituto de Tecnologia de Massachusetts) apresentaram uma abordagem em que o algoritmo é capaz de realizar a etapa de feature engineering automaticamente, de maneira não-supervisionada, para assim aumentar a eficiência – em termos de precisão e de tempo – de um algoritmo de predição treinado com poucas instâncias. Eles testaram a abordagem para classificar pacientes com ou sem nódulos nas cordas vocais, a partir de um conjunto de dados contendo cerca de 10⁹ medições para cada um dos 104 pacientes. Os dados foram obtidos usando um sistema de monitoramento vocal não-invasivo conectado a um smartphone. As vibrações das cordas vocais foram primeiro tratadas matematicamente para serem expressadas na forma de um espectrograma de duas dimensões, tempo e frequência. Esses espectrogramas, de dimensão 128×64, foram então passados para uma rede neural do tipo autoencoder. Ao final do treinamento, os dados de saída da camada do encoder foram usados como representações da informação original em um formato compactado. Esses dados, considerados como o resultado de um processo de feature engineering não-supervisionado, foram então utilizados para prever a presença ou ausência de nódulos. A estrutura desenvolvida pela equipe atingiu AUROC de 0,69 e precisão de 0,70 no dataset de validação, resultados ligeiramente superiores àqueles da abordagem clássica de feature engineering manual (0,68/0,69).

Os autores então usaram sua abordagem em uma nova tarefa, predizer o estresse causado nas cordas vocais de pacientes e controles. Eles estavam interessados tanto em ver se sua forma de coletar dados quanto seu método de feature engineering eram adequados à tarefa. Os resultados demonstraram uma diferença significativa no nível de estresse nas cordas vocais em função do estado de saúde da pessoa analisada, o que reforça o poder da metodologia desenvolvida.

Esse trabalho demonstra o esforço dos pesquisadores em automatizar até mesmo as tarefas de machine learning que atualmente ainda dependem de pessoas. É possível que num futuro próximo nem tenhamos outra opção, já que a disponibilidade de dados tem aumentado de forma exponencial. A evolução da própria inteligência artificial pode depender de etapas cada vez mais rápidas e que necessitem de menos intervenções.