Detecção de câncer de pulmão por IA é mais precisa que a de especialistas

O câncer de pulmão foi responsável por 160.000 mortes nos Estados Unidos em 2018, sendo a causa mais comum de fatalidades causadas por câncer. O diagnóstico disponível é feito por raio-X ou tomografia computadorizada de baixa dosagem (LDCT, sigla em inglês), onde a quantidade de radiação ionizante é menor que em um CT tradicional. O diagnóstico por LDCT tem sido responsável pela redução de mortalidade na faixa de 20-43% ao detectar tumores malignos em início de desenvolvimento, mas uma vez que o parecer é feito por especialistas, há uma variabilidade nessas avaliações, e uma alta incidência de falsos positivos, que resultam em procedimentos invasivos e caros desnecessários como biopsias para confirmar o diagnóstico, e falsos negativos, onde o paciente não é tratado devidamente.

Um artigo publicado em 20 de maio na Nature Medicine apresenta uma proposta baseada em inteligência artificial para melhorar esse quadro. Uma equipe de pesquisadores conjunta do Google e do Hospital Memorial Northwestern, em Chicago, usou dados provenientes de 42.290 leituras de LDCT para treinar uma rede neural profunda na detecção de nódulos malignos. Quando disponíveis, as leituras foram pareadas com leituras anteriores, o que permite detectar aumento no tamanho de nódulos, um indicativo de malignidade. O grande diferencial para a análise manual feita por especialistas é que esses fazem a avaliação dos cortes em duas dimensões, enquanto que a rede foi treinada para avaliar vários cortes empilhados, ou seja, em uma imagem tridimensional. A informação trazida por leituras anteriores adiciona uma quarta dimensão, a do tempo. O método identifica uma região de interesse, e a probabilidade de essa região ser cancerosa, o que lhe garante especificidade.

Os resultados, obtidos com uma base de testes contendo 6.716 leituras provenientes do mesmo hospital e 1.139 casos obtidos de bancos de dados públicos, foram comparados com aqueles produzidos por seis radiologistas com até 20 anos de experiência. Quando o modelo usou leituras anteriores, os resultados representavam uma redução de 11% na taxa de falsos positivos e 5% na redução de falsos negativos, quando comparados com as avaliações dos especialistas. Essa performance resultou num índice AUC de 0.94 – o valor 1 indica nenhum falso positivo ou falso negativo. Quando as leituras anteriores não estavam disponíveis, o modelo teve uma performance compatível com aquela dos radiologistas.

O trabalho é um exemplo da interdisciplinaridade necessária para o sucesso da implementação de inteligência artificial em áreas diversas. De fato, o hospital já conta pioneiramente com um laboratório responsável pela integração entre cuidados médicos e engenharia. Os pesquisadores do hospital tiveram que adaptar seu software, usado comumente com finalidade clínicas, para que os dados pudessem ser interpretados pelo modelo de rede neural, o que levou cerca de um ano. A equipe do Google, além do conhecimento técnico em machine learning, providenciou a infraestrutura robusta necessária para processar dados de alta complexidade e tamanho. Os autores estão confiantes de que esse é um primeiro passo importante para aumentar a precisão, a consistência e a adoção do screening para câncer de pulmão ao redor do mundo.