Desde que a inteligência artificial começou a ser aplicada na análise de exames clínicos, volta e meia é publicado um novo trabalho relatando o alto desempenho de sistemas baseados em machine learning para interpretar exames e indicar presença ou ausência de doenças. Entretanto, nenhuma meta-análise (ou seja, um estudo sobre estudos) havia sido realizada para confirmar se os resultados indicavam uma tendência consolidada, ou se a proeminência que a IA vinha alcançando era apenas ocasional. Os resultados têm sido consistentes independentemente da doença sendo analisada? Será que o entusiasmo sobre a possível automatização, e até melhoria, dos processos diagnósticos é justificado?
Agora, pesquisadores associados ao National Health Service (NHS, o serviço de saúde público da Inglaterra) acabam de publicar o primeiro estudo do tipo. Eles iniciaram a análise buscando todos os trabalhos reportando a utilização de métodos de machine learning para diagnóstico a partir de imagens, publicados desde 2012, ano em que o modelo AlexNet atingiu um patamar inédito em tarefas de classificação de imagens. Ao todo, 31587 estudos foram identificados. Entretanto, a grande maioria não possuía todos os dados necessários para comparação, e assim só 82 foram selecionados. Desses, 69 tinham informações suficientes para determinar métricas como sensibilidade e especificidade. Apenas 25 reportavam a validação com um dataset separado, dos quais só 14 comparavam os resultados com aqueles fornecidos por profissionais técnicos. As tabelas de contingência dos resultados desses 14 estudos nos datasets de validação foram usadas como base de comparação.
A avaliação revelou que os métodos baseados em machine learning alcançaram sensibilidade de 87% e sensibilidade de 92,5%; os valores obtidos para os profissionais técnicos foram de 86,4% e 90,5%, respectivamente. Isso indica que a performance diagnóstica dos modelos de deep learning é equivalente àquela dos profissionais. Parece que, de fato, a fama que tem sido dada à inteligência artificial na área é merecida. Entretanto, o que mais chamou a atenção dos pesquisadores foi a baixa qualidade técnica dos estudos publicados, como se observa pela alta taxa de rejeição para inclusão na sua meta-análise. Muitos estudos avaliavam o desempenho dos modelos de deep learning isoladamente, sem comparar com o desempenho já disponível via profissionais técnicos, o que acaba tendo nenhuma aplicação prática. Nenhum estudo realizou um cálculo anterior do número de amostras a serem incluídas, de forma a garantir o poder estatístico de suas conclusões. Poucos deles trabalharam com datasets em ambientes clínicos reais, usando ao invés datasets públicos, geralmente organizados com outras finalidades, e alguns não deixavam claro se usaram datasets independentes para validação dos resultados, devido ao uso de nomenclaturas inconsistentes da área de machine learning.
Mesmo com as limitações levantadas, os autores comentam que houve uma melhoria considerável na qualidade dos estudos observada no último ano: 58 dos 82 estudos que passaram pelo primeiro filtro de qualidade foram publicados nos últimos 12 meses. Além do mais, os resultados obtidos são claramente promissores. Essa meta-análise deve ser bem recebida, já que, mesmo que ainda houvessem dúvidas sobre a aplicabilidade dos métodos em um ambiente real, o Food and Drug Admistration (FDA, o órgão regulamentador americano em questões de saúde) já aprovou mais de 30 algoritmos como ferramenta diagnóstica. Por fim, os autores sugerem a implementação de protocolos internacionais padronizados para a avaliação de algoritmos, já que atualmente os métodos usados na prática são variáveis e frequentemente incompletos. Isso deve ajudar a garantir a qualidade e a interpretabilidade de estudos futuros, o que deve reforçar a confiança na aplicação da nova tecnologia na área da saúde.
Excelente artigo!
Obrigado Denny Ceccon.