As proteínas são os agentes intermediários entre o genótipo – a informação codificada na forma de DNA – e o fenótipo – as características observáveis de um ser vivo, como seu aspecto físico. A produção de proteínas envolve a “tradução” da informação genética em uma cadeia de aminoácidos, que são os blocos a partir dos quais as proteínas são construídas. É mais ou menos como traduzir do português para o chinês: pequenas sequências de letras no nosso alfabeto (análogo às bases de DNA) têm uma correspondência no alfabeto oriental (análogo aos aminoácidos), e a soma dos caracteres chineses traduzidos forma palavras naquele idioma (análogo às proteínas). As proteínas têm várias funções, desde estruturais – como o colágeno presente na pele, ou a queratina nas unhas – até enzimáticas. Enzimas são proteínas que catalisam – ou aceleram – reações químicas, sem as quais a vida não seria possível.
Acontece que a sequência de aminoácidos que forma uma proteína é só metade da história. Para exercer sua atividade, elas são dependentes ainda de sua forma tridimensional. Por algumas décadas, cientistas conjecturaram ser possível determinar a estrutura de uma proteína a partir da sequência de aminoácidos que a forma, mas esta tarefa se mostrou extremamente desafiante. Como os aminoácidos são adicionados um a um durante a produção de uma proteína, eles interagem entre si de maneiras praticamente ilimitadas, e essas interações vão lentamente determinando a estrutura que a proteína final adotará. O processo é tão complicado que sua modelagem se mostrou ineficiente, e a maioria das estruturas atualmente conhecidas foi determinada experimentalmente, através de processos lentos e laboriosos. Mas o desafio permaneceu ativo: há cerca de 25 anos, cientistas da área se engajam numa competição bienal chamada de CASP (Critical Assessment of Protein Structure Prediction, ou Avaliação Crítica da Predição de Estrutura Proteica), onde submetem o resultado de seus modelos geralmente baseados em simulação para prever a estrutura de 100 proteínas selecionadas pelos organizadores, a partir de sua sequência de aminoácidos apenas. Até então, os melhores modelos vinham alcançando uma precisão de aproximadamente 60%.
Esta semana este cenário mudou radicalmente. A DeepMind, empresa irmã do Google especializada em inteligência artificial, que vinha nos últimos anos impressionando a comunidade computacional apresentando algoritmos capazes de vencer humanos em jogos complexos como o Go, anunciou sua entrada na competição CASP deste ano: um modelo, batizado de AlphaFold 2, que atingiu precisão de 92,5%. Esta é uma nova versão do modelo que já liderava a competição em 2018, mas o ganho de desempenho, maior que 30%, é impressionante. A comunidade de biólogos computacionais não esperava ver um avanço dessa magnitude ainda durante muitos anos.
O AlphaFold é uma rede neural treinada para prever a posição dos átomos que compõem a proteína, e para isso, utilizou bases de dados onde a estrutura de mais de 170 mil proteínas já havia sido definida experimentalmente. Se o processo de desenvolvimento da rede foi trabalhoso – foram necessárias algumas semanas de treinamento em 16 TPUs -, agora o modelo é capaz de fazer predições em poucas horas. Em comparação, a determinação experimental pode levar anos. Segundo os pesquisadores, o erro médio do AlphaFold é de 1.6 angstroms, o que corresponde ao diâmetro de um átomo.
As implicações deste resultado são enormes. Um biólogo computacional da Universidade de Columbia, nos Estados Unidos, disse à Nature, uma das principais publicações científicas do mundo, que este é “um dos mais significativos resultados científicos que ele já viu”, e que “muitos [pesquisadores] devem deixar a área [de predição de estrutura de proteínas] já que o problema fundamental foi praticamente resolvido”. Algumas áreas nascentes de pesquisa devem expandir drasticamente, como a análise evolutiva de proteínas, já que o sequenciamento massivo de DNA atualmente é prática corriqueira, mas até então era pouco prático traduzir as sequências em estrutura, para então especular sobre sua função. Mas o impacto mais radical deve ser sentido na indústria farmacêutica, já que proteínas são alvos comuns de medicamentos. A eficiência de uma vacina contra o novo coronavírus, por exemplo, depende da estrutura das proteínas presentes em sua superfície, que são reconhecidas como hostis pelo sistema imunológico.
É possível que o AlphaFold se revele uma das contribuições mais disruptivas da inteligência artificial até então, provocando uma revolução poucas vezes vistas na história da ciência.