Modelo de linguagem aplica o princípio de geração de texto para sintetizar enzimas inéditas

As enzimas são proteínas que são responsáveis por realizar virtualmente todas as reações químicas de que as células precisam para funcionar. Elas são constituídas por sequências de aminoácidos de tamanho variável. Ao todo, existem cerca de 20 aminoácidos, que servem como o alfabeto à disposição para a construção de uma enzima. Uma sequência específica é quem determina, em um primeiro momento, a forma tridimensional que a enzima vai ter, e tanto seus aminoácidos constituintes quanto este formato final determinam a eficiência da enzima para promover as reações sob sua responsabilidade.

Em um trabalho publicado no começo do ano por pesquisadores da Universidade da Califórnia, nos Estados Unidos, essa analogia dos aminoácidos com um alfabeto se mostrou ser adequada não somente como recurso didático, mas também como fonte de inspiração para o desenvolvimento de novas tecnologias. Os cientistas usaram um modelo de linguagem para desenvolver uma inteligência artificial capaz de sugerir enzimas sintéticas, com sequências de aminoácidos inéditas, capazes de exercer a mesma função química que enzimas naturais. Como já existe um banco de dados extenso sobre a composição de aminoácidos de enzimas bem caracterizadas, o trabalho envolveu treinar o modelo com mais de 280 milhões dessas sequências, para que ele aprendesse, de certa forma, a “linguagem” que a biologia usa nesta tarefa. Depois que o modelo se especializou neste vocabulário, os cientistas então entregaram a ele 56 mil sequências iniciais de cinco famílias de uma enzima chamada de lisozima, para servir de prompt. Assim como os modelos generativos de texto, este modelo então completou essas sequências, de maneira a manter a “semântica” aprendida. Na fase seguinte, 100 dessas sequências foram selecionadas para síntese e teste in vitro, para quantificar sua funcionalidade. Em um segundo screening, as 5 melhores candidatas foram testadas in vivo, ou seja, dentro de células. Dessas, 2 se mostraram eficientes máquinas bioquímicas, capazes de realizar a mesma função que as lisozimas naturais, ainda que fossem apenas 18% similares entre si, e 70 e 90% similares a enzimas naturais.

Como os resultados se mostraram muito promissores, os pesquisadores testaram então uma abordagem mais ousada, sintetizando enzimas com pouca similaridade com as lisozimas naturais. As novas enzimas se mostraram ativas mesmo com até apenas 31,4% das sequências idênticas a suas contrapartes conhecidas.

Como o formato das enzimas é tão importante para sua função, os autores então avaliaram a estrutura atômica das enzimas artificiais, e descobriram que elas tinham um formato “coerente”, mesmo tendo sequências de aminoácidos inéditas. Isso mostra que, mesmo sem ter sido treinado para esta tarefa explícita, o modelo foi capaz de capturar essa dimensão oculta da linguagem biológica.

Os pesquisadores acreditam que seu trabalho ajuda a consolidar o início de uma nova era no design de proteínas “from scratch”, sendo o primeiro grande avanço desde a evolução dirigida, técnica até então utilizada com o mesmo objetivo. O amadurecimento da área deve permitir o desenvolvimento de novas proteínas para finalidades tão diversas quanto o uso terapêutico ou a degradação de poluentes.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.