Mineração de textos e machine learning potencializam descobertas científicas nas ciências de materiais

A empreitada científica não termina quando os pesquisadores publicam seus resultados. Uma descoberta científica só tem impacto real se ela se revelar convergente com outros trabalhos publicados na área. Mas o volume de trabalhos publicados sempre foi um desafio para o avanço do conhecimento científico, pois nenhuma única pessoa é capaz de integrar todos esses resultados em uma conclusão coesa. É por isso que a ciência é uma atividade inerentemente coletiva, onde cientistas se reúnem em comitês para que o trabalho conjunto possa gerar um consenso. Mas mesmo assim, o desempenho desses comitês está longe do ideal. Não é incomum que, no meio desse oceano de publicações, algumas descobertas passem despercebidas, ou então que o consenso seja formado lentamente, chegando a sua forma final com algum tempo de atraso.

Pois até esses percalços podem ser estudados, e melhorados, com ciência. Pesquisadores do Laboratório Nacional Lawrence Berkely e da Universidade da Califórnia, nos Estados Unidos, usaram técnicas de mineração de textos e machine learning para estudar padrões nas publicações da sua área de pesquisa, a ciência de materiais, e assim potencializar suas descobertas.

O número de materiais que podem ser potencialmente criados é enorme, pois há infinitas formas de combinar componentes e estruturas químicas. A descoberta de materiais com propriedades interessantes acaba sendo tanto ciência quanto arte, já que a experiência dos pesquisadores ajuda na criação de novas formulações, que devem entretanto ser testadas num processo quase de tentativa e erro, que acaba sendo caro e ineficiente. O time de pesquisadores americanos investigou como esse processo pode ser melhorado a partir de trabalhos científicos já publicados. Eles coletaram 3,3 milhões de resumos de artigos publicados entre 1922 e 2018 nas áreas de ciência de materiais, física e química. Os resumos foram primeiro curados, para remover texto em outras línguas ou não relacionado a descobertas (como erratas ou memoriais), e os 1,5 milhões restantes, contendo 500.000 palavras distintas, foram usados para o treinamento de um algoritmo de machine learning do tipo Word2Vec.

Word2Vec é um tipo de algoritmo que converte textos em vetores, de forma que eles possam ser representados em um espaço numérico. Após esse processo, chamado de word embedding, palavras com semântica similar costumam estar próximas umas das outras nesse espaço de representação. A técnica ainda permite realizar “cálculos” com palavras, onde um sentido semântico pode ser retirado ou adicionado a uma palavra para que ela se transforme em outra, mantidas as relações da palavra original que não foram manipuladas. O exemplo clássico é que, dentro dessa abordagem, é possível demonstrar matematicamente que rei – homem + mulher = rainha. A conversão das palavras em vetores é feita passando o texto original a uma rede neural, a qual então determina, sem supervisão, quais palavras são comuns em determinado contexto (quais costumam ocorrer próximas umas das outras, e com que frequência), e as dimensões semânticas que representam esse vocabulário vão se formando naturalmente.

Ao final de seu trabalho, os pesquisadores da Califórnia descobriram que associações de palavras, representadas por clusters no espaço numérico multidimensional em que os textos foram convertidos, refletiam regras da química, como os conceitos de “elementos químicos”, “óxidos”, “estruturas cristalinas” entre outras. Isso sem que o algoritmo tenha recebido qualquer informação explícita sobre química. Trabalhos relatando materiais com propriedades semelhantes, como piezoelétricos, supercondutores, fotovoltaicos ou compostos orgânicos, também formaram clusters bem definidos. Isso é interessante porque pode representar uma forma de classificar novos materiais antes mesmo que todos os testes laboratoriais sejam realizados.

Mas o mais impressionante foi que o algoritmo relevou habilidades preditivas. Os autores separaram artigos até determinada data para treinar o algoritmo, e descobriram que eles costumavam se agrupar na região de outros trabalhos com determinada característica – digamos, de materiais termoelétricos – sem que essa propriedade tenha sido relatada até então. Entretanto, investigando os artigos posteriores a essa data, eles descobriram que os materiais descritos inicialmente tiveram essas propriedades confirmadas experimentalmente. Os 50 materiais no topo do ranking selecionado dessa forma revelaram uma tendência 8 vezes maior de terem suas propriedades “semânticas” confirmadas nos 5 anos subsequentes do que materiais escolhidos aleatoriamente.

A combinação de machine learning não-supervisionado e mineração de textos para descobertas científicas é muito bem-vinda. Os trabalhos científicos atuais são facilmente encontrados em forma digital, o que facilita seu processamento pelos métodos, e mesmo trabalhos antigos, com mais de 100 anos de publicação, estão cada vez mais disponíveis na internet. A abordagem tem um ponto fraco: ela só é capaz de trabalhar com propriedades que já tenham sido descritas na literatura em que ela foi treinada. Entretanto, é possível descobrir novas características de materiais que já tenham sido publicados mas não investigados em todo seu potencial. Além disso, é só questão de tempo para que métodos similares sejam empregados em outras áreas do conhecimento.

A pesquisa foi publicada na revista Nature, no último dia 3.