Os grandes modelos de linguagem (LLMs, large language models) às vezes também são chamados de “modelos fundacionais” (foundation models) porque, como são treinados com uma quantidade enorme de dados, eles podem ser adaptados para realizar as tarefas mais variadas. Aproveitando-se dessa característica, um consórcio de pesquisadores do Instituto Gladstone, do Instituto de Tecnologia de Massachusetts (MIT) e da Universidade Harvard, nos Estados Unidos, desenvolveram um modelo fundacional para entender como grandes redes de genes humanos interconectados controlam o funcionamento das células, e como interrupções dessas redes podem causar doenças. O trabalho foi publicado no final de maio.
O genoma humano é composto por cerca de 20 mil genes. Muitos deles interferem na atividade de outros genes, em redes complexas de interação. Uma melhor compreensão desses processos poderia revelar como alterações nessas redes estão relacionadas a doenças, o que por sua vez poderia ser uma importante etapa inicial no desenvolvimento de tratamentos. Pesquisadores já usam algoritmos de machine learning para estudar essas redes, mas até então, cada rede metabólica deveria ser estudada separadamente. Processos que ocorrem em diferentes órgãos, por exemplo, dependem de seu próprio algoritmo e de seus próprios dados. O problema é que, no caso de algumas doenças, há poucos dados disponíveis.
Foi então que os pesquisadores do consórcio desenvolveram o Geneformer. Assim como os modelos desenvolvidos para entender texto, esta versão foi primeiro “pré-treinada” para aprender aspectos fundamentais da interação entre genes, processando dados dos níveis de atividade genética de mais de 30 milhões de células, de diferentes tecidos humanos. Depois, em uma etapa de fine-tuning, o modelo foi ajustado para fazer predições sobre a conexão entre genes, avaliando se a redução nos níveis de alguns genes causaria uma doença. As predições obtidas tiveram acurácia muito maior do que a alcançada por métodos alternativos, o que se justifica pelo conhecimento prévio que o modelo adquiriu na etapa de treinamento mais generalista. O mais interessante é que o Geneformer mostrou a mesma capacidade para as doenças caracterizadas por poucos dados.
Em uma segunda etapa para demonstrar as capacidades do modelo, os pesquisadores o utilizaram para fazer descobertas inéditas sobre doenças cardíacas. Muitos dos genes identificados já haviam sido associados a essas doenças, o que reforça a capacidade do modelo de fazer predições confiáveis, mas novos alvos também foram reportados. A influência de um desses novos genes foi comprovada por sua remoção de células cardíacas cultivadas in vitro. Finalmente, o modelo foi capaz de prever genes que serviriam como alvos terapêuticos, resultados que também foram confirmados por testes com células doentes.
Em vista desses resultados, os pesquisadores acreditam que seu modelo pode ser aplicado para estudar doenças com avanço lento, como doenças raras e aquelas que afetam tecidos difíceis de obter amostras. Agora, eles estão trabalhando para aumentar o número e o tipo de células com que o Geneformer é treinado, melhorando sua capacidade de analisar redes de interação genética.
O modelo foi disponibilizado à comunidade científica em formato open-source.
Olímpia SP Brasil