A sequência de DNA que compõe o genoma humano contém informação sobre nossa história evolutiva. Por exemplo, cerca de 8% do nosso genoma atual é originário de infecções virais que aconteceram ao longo dos milênios. Essas inserções podem ter efeito negativo quando, por exemplo, causam uma mutação em um gene relacionado à reprodução celular, caso em que uma das consequências pode ser o surgimento de uma célula cancerígena.
Atualmente, sequenciar o genoma é tecnicamente fácil e barato, mas o DNA é sequenciado em pequenos fragmentos, que graças a regiões de sobreposição podem ser montados computacionalmente para recuperar o genoma inteiro. Mas as inserções virais costumam representar sequências idênticas que ocorrem em várias partes do genoma, o que torna este processo de montagem muito mais difícil. É como resolver um quebra-cabeça com peças idênticas mas que resultam na imagem errada. No caso dos genes com potencial cancerígeno, isto é particularmente indesejado, pois dificulta o estudo desses genes, de sua relação com a doença, e de potenciais terapias.
Para ajudar nesta tarefa, pesquisadores da Universidade Livre de Bruxelas, na Bélgica, desenvolveram um método de machine learning capaz de identificar os genes cancerígenos mesmo na presença de sequências repetidas. O algoritmo foi aplicado na análise de 2658 tipos de câncer diferentes, descobrindo cerca de 1700 mutações até então desconhecidas. A análise dessas mutações revelou que seu perfil era similar às mutações que ocorrem em regiões não repetidas, o que permite fazer predições em estudos sobre a evolução do câncer.
De um ponto de vista prático, a nova ferramenta vai permitir um melhor diagnóstico de pacientes com câncer, o que tem enorme valor na determinação do tratamento mais adequado.
Além de aumentar consideravelmente o acesso a informações relacionadas ao câncer, a nova ferramenta pode ser aplicada para qualquer finalidade, esclarecendo as regiões do genoma cujo estudo era complicado pela presença de sequências repetidas.