Durante seu ciclo de vida, os vírus podem sofrer mutações em seu material genético, com consequências para seu funcionamento e sua relação com o organismo hospedeiro. Algumas mutações podem resultar em vírus mais letais ou com maior taxa de transmissão, mas que ainda assim são reconhecidos por nosso sistema imunológico, se este foi previamente exposto àquele. Em outros casos, entretanto, as mutações também fazem com que nosso corpo não mais o reconheça como uma ameaça, tornando as vacinas ineficientes para oferecer proteção contra a infecção. Este fenômeno é chamado de escape viral.
Essas mutações podem ser pensadas como mudanças de palavras em uma frase, que preservam sua gramática mas mudam o seu significado. Esta analogia é a inspiração por trás de um trabalho científico publicado semana passada. Os pesquisadores, vinculados ao Instituto de Tecnologia de Massachusetts, resolveram estudar o fenômeno de escape viral usando modelos de modelagem de linguagem, oriundos da área de processamento de linguagem natural. Eles consideraram que as bases que compõem o material genético do vírus são como palavras que, em uma sequência específica, resultam em um significado semântico, no caso, a habilidade do vírus de evadir o sistema imunológico humano. A abordagem é criativa e até ousada, mas se revelou bem-sucedida com o desenvolvimento realizado pelo time.
O algoritmo foi treinado de forma não-supervisionada para primeiro “modelar a linguagem” dos vírus, tornando possível traduzir as sequências genéticas diretamente para um “espaço semântico”, que depois foi relacionado à capacidade de escape de cada variante viral. Exatamente como os modelos mais modernos de classificação de texto funcionam. Os pesquisadores testaram a idea com alguns vírus bem estudados como o da influenza, HIV e o próprio novo coronavírus. Ao final do trabalho, o modelo foi capaz de determinar quais mutações críticas podiam alterar a estrutura do vírus suficientemente para que ele pudesse escapar nosso sistema imune, reproduzindo os resultados de pesquisas anteriores que seguiram vias de estudo mais tradicionais.
Além do caráter inusitado do trabalho, chama a atenção o fato de os pesquisadores terem usado simples sequências de DNA para alimentar o algoritmo. Por um lado, sequenciar DNA é atualmente trabalho fácil e corriqueiro; por outro, há, ao menos em princípio, um vão enorme desconhecido entre esta sequência e a função que ela confere. Vão este que foi cruzado, neste caso, pelos algoritmos de processamento de linguagem.
O trabalho ainda precisa de validação adicional, mas se render resultados consistentes, deverá potencializar a pesquisa de vacinas efetivas contra o HIV, e uma vacina universal para a gripe. Quanto ao coronavírus, será possível se adiantar ao processo natural e se precaver contra formas mutantes potencialmente capazes de furar os esforços de vacinação em massa que atualmente ocorrem em todo o mundo. Mas além disso, o estudo revela que a natureza tem mecanismos de ação muito similares à linguagem, revelando muito sobre ambos estes universos.