IA desvenda sequência de DNA que inicia ativação genética

Quando um gene está ativo, a primeira atividade celular que ocorre na cadeia de informações que vai do DNA até seu produto final é a cópia da sequência do gene em uma molécula análoga de RNA. O processo de cópia, ou transcrição como é chamado tecnicamente, é feita por uma enzima chamada de RNA polimerase. Para iniciar o processo, a RNA polimerase deve se ligar ao DNA numa região anterior ao início do gene. Esta ligação é mediada pela própria sequência de DNA nesta região anterior ao gene. Os pesquisadores em biologia molecular já sabem que, em 25% dos genes humanos, a sequência que promove a ligação da RNA polimerase à molécula de DNA é a chamada TATA box, que tem este nome por ser composta por variações da sequência consenso TATAAA. Entretanto, nos outros casos, as sequências responsáveis não são conhecidas. A investigação de outras sequências não é trivial, já que não se sabe de antemão seu comprimento, nem quais bases de DNA a formam, e o número de variações possíveis é enorme.

Neste mês, o trabalho de pesquisadores da Universidade da Califórnia San Diego desvendou, com a ajuda de um algoritmo de inteligência artificial, uma nova família de sequências promotoras de transcrição, chamada de DPR (downstream core promoter region, ou região promotora principal à montante). Apesar de ter sido identificada anteriormente em moscas, a importância da DPR em humanos permaneceu elusiva por cerca de 20 anos, já que sua sequência não é óbvia nem facilmente reconhecível. Na nova pesquisa, os cientistas criaram um método chamado de HARPE (high-throughput analysis of randomized promoter elements, ou análise de grande volume de elementos promotores randomizados), pelo qual eles criaram cerca de 500 mil sequências aleatórias de DNA, as quais tinham atividade transcricional conhecida. Estes dados foram analisados através de regressão do tipo support vector, para gerar modelos compreensivos capazes de predizer a atividade de transcrição com base na sequência. A metodologia conseguiu identificar que a DPR é composta por 19 bases de DNA, e é usada com uma frequência pelo menos igual à da TATA box. Os resultados de predição foram considerados excelentes, mostrando que a abordagem adotada é muito mais robusta do que a busca por sequências consenso. De fato, o modelo também teve alto desempenho quando analisando sequências do tipo TATA box. A pesquisa ainda revelou que, via de regra, promotores com TATA box não possuem DPR e vice-versa. As duas famílias de ativadores, portanto, cobrem mais de 50% dos genes humanos. A elucidação da DPR deve ser útil no futuro para entender e controlar a ativação genética em células humanas, o que deve ter aplicações biotecnológicas e biomédicas.

Os pesquisadores dizem que a descoberta da DPR não seria possível sem o uso de machine learning, já que a informação “escondida” nas variações das 19 bases que a compõem é complexa demais para que um ser humano pudesse desvendá-la. A pesquisa demonstra o poder que a inteligência artificial tem como ferramenta de trabalho para os biólogos moleculares, permitindo estudar fenômenos que até então permaneceriam indecifráveis. Metodologias similares podem ser úteis para estudar outras sequências de DNA importantes que atualmente permanecem inexploradas.