Uma doença costuma se manifestar através de sintomas que afetam o organismo em uma macro-escala. Com base na sintomatologia, um médico pode iniciar a investigação mais detalhada, chegando por exemplo a identificar o órgão ou sua sub-estrutura afetada. Entretanto, toda doença começa na menor unidade viva, a célula. Identificar as células doentes é o objetivo final da área nascente chamada de medicina personalizada, que permite atacar o problema em sua causa primordial, afetando minimamente o restante do organismo.
Como apoio a esta área, foi desenvolvido o Atlas Celular Humano, que atualmente é o maior dataset de referência para células individuais, agregando dados coletados por pesquisadores no mundo todo. Graças a esses dados, é potencialmente possível estudar fenômenos como o envelhecimento, o impacto do ambiente e o desenvolvimento de doenças em uma alta resolução. Mas transformar este potencial em prática apresenta alguns desafios: os dados coletados em pesquisas podem conter erros, o que é natural dada a pequena escala de investigação; a pesquisa direta neste atlas exige recursos computacionais elevados, que nem sempre estão disponíveis; e o compartilhamento de dados brutos costuma ser legalmente restrito por razões de privacidade.
Uma solução que resolve estes problemas foi apresentada por pesquisadores da Universidade de Munique, na Alemanha. Batizado de scArches (Single-Cell Architecture Surgery, ou cirurgia na arquitetura de células individuais), o sistema usa inteligência artificial para mapear nestes atlas de referência os dados coletados por pesquisadores. Desta forma, os dados não precisam ser compartilhados abertamente, já que sua versão anotada pelo sistema é suficiente, e assim a privacidade dos pacientes é preservada. O framework unificado também democratiza o acesso ao atlas, facilitando a consulta e permitindo, por exemplo, que tarefas que exijam treinamento sejam feitas de forma descentralizada.
Os desenvolvedores do scArches testaram o sistema com dados de pacientes acometidos pela COVID-19. O algoritmo foi capaz de identificar células doentes do pulmão em diferentes estágios da doença, sem que as variações biológicas naturais entre os indivíduos prejudicasse a qualidade do mapeamento, que é uma das maiores vantagens do uso de um atlas.
O sistema está disponível em formato aberto.