Rede neural para predizer a estrutura de proteínas a partir de seus constituintes

As proteínas são moléculas elementares da constituição de sistemas biológicos. Elas exercem várias funções relacionadas ao funcionamento das células, sendo inclusive as principais catalisadoras das reações químicas necessárias para que haja vida. A função das proteínas é extremamente ligada à sua estrutura tridimensional (como na representação presente na imagem que ilustra esse texto). Um dos principais fatores que determinam essa estrutura são os aminoácidos que as formam. Os aminoácidos se ligam de forma linear, um após o outro, para dar origem a determinada proteína. Como existem aminoácidos com várias características químicas diferentes, a forma com que eles interagem entre si no momento em que a proteína está sendo sintetizada tem papel fundamental na sua configuração final.

Como a estrutura das proteínas é tão importante, pesquisadores dedicam muito tempo ao seu estudo. Entretanto, predizer a estrutura das proteínas a partir da sua composição de aminoácidos não é tão simples, já que essa relação não é nada óbvia. Atualmente, analisar a estrutura proteica envolve técnicas lentas, caras e complicadas, como a cristalografia, que forma cristais da proteína sobre as quais se incide luz; a forma como a luz refrata traz informações importantes sobre sua configuração tridimensional. Esse processo precisa que a proteína esteja com alto grau de pureza e determinar as condições ideais de cristalização é uma tarefa nada trivial.

No último dia 14, pesquisadores do Centro de Computação Steinbuch (SCC) do Instituto de Tecnologia Karlsruhe (KIT), na Alemanha, anunciaram um método para predizer a estrutura proteica usando inteligência artificial. Seu método usa bancos de dados – atualmente abundantes e públicos – de sequências proteicas para comparar a mesma proteína presente em diferentes espécies. As sequências exatas de aminoácidos costumam ser diferentes entre espécies, mas a função (e portanto a estrutura) das proteínas finais são muito similares. Assim sendo, eles treinaram um modelo para que ele fosse capaz de traduzir essas sequências na forma tridimensional que a proteína assume. E, nesse caso, o verbo traduzir não é acidental; o método foi de fato inspirado nos princípios de processamento de linguagem natural e nos modelos de tradução de idiomas. De certa forma, as sequências de aminoácidos são mesmo traduzidas em “outra língua”. É como se a natureza usasse várias formas para dizer a mesma coisa: a sequência de aminoácidos representa os vários idiomas possíveis, mas a estrutura corresponde à ideia que se busca expressar.

Uma das maiores dificuldades para prever a estrutura a partir da sequência de aminoácidos é que alguns pares de aminoácidos essenciais para a formatação correta das proteínas estão distantes nessa sequência. Eles só interagem entre si porque, a cada aminoácido adicionado à proteína durante sua síntese, a estrutura “torce” um pouco, até que, depois de um tempo, duas regiões mais distantes na sequência linear acabam ficando próximas no espaço tridimensional. Mas esses pequenos rearranjos são difíceis de predizer. Por isso, os autores escolheram redes neurais do tipo self-attention (“auto-atenção”, em tradução livre) para treinar seu modelo. Essas redes já são usadas com sucesso em problemas de tradução entre idiomas, e funcionam reconhecendo quais partes dos dados de entrada são mais importantes para a realização da tarefa em questão. É só lembrar que cada idioma tem estruturas linguísticas diferentes; em alguns, as palavras para expressar uma ideia estão próximas umas das outras, em outros, as palavras estão distantes. Os pesquisadores conseguiram treinar um modelo do tipo para predizer quais aminoácidos interagem entre si e assim definem a estrutura proteica final.

O método traz o benefício adicional de que é atualmente fácil determinar a sequência de aminoácidos de uma proteína nova. Um modelo bem treinado nessa complicada tarefa de tradução pode, portanto, ser de enorme auxílio no estudo da função biológica das proteínas. Mesmo que não alcance uma precisão perfeita, seus resultados podem auxiliar a desenhar os experimentos mais rebuscados necessários para a elucidação das estruturas. E cada estrutura elucidada pode ser usada para refinar ainda mais o modelo que lhe tornou possível.