Quem já teve que ler artigos científicos, sejam da área de inteligência artificial ou qualquer outra, já se deparou com termos novos, que não faziam parte de seu conhecimento prévio. Nesses casos, é desejável que o próprio artigo apresente uma breve definição dos termos, mas isso nem sempre acontece. Para terminologias mais disseminadas, uma pesquisa online pode esclarecer o que elas significam, mas pode ser mais difícil encontrar referências acessíveis para aqueles que ainda não ganharam tração. Além disso, dependendo do background do leitor, definições fraseadas de forma específica podem ser mais eficientes.
Uma ferramenta baseada em inteligência artificial foi apresentada pelo Instituto Allen, dos Estados Unidos, para ajudar nesta tarefa. Batizado de ACCoRD, o sistema emprega técnicas de processamento de linguagem natural para fazer uma varredura na literatura científica e apresentar um conceito de múltiplas formas distintas.
O novo paradigma, chamado pelos pesquisadores de geração de set descritivo (DSG, description set generation), funciona em três etapas. Na primeira, o sistema utiliza o SciBERT, uma versão do BERT treinada com textos científicos, para encontrar sentenças que servem de contexto para o conceito desejado. Na segunda, modelos da família GPT são empregados para gerar descrições sucintas e suficientes da relação do alvo com cada contexto de referência. Finalmente, o set final é produzido priorizando uma coleção diversa de descrições que cubram vários tipos de relação e conceitos de referência.
O trabalho ainda empregou um dataset construído pelos pesquisadores exclusivamente para esta tarefa, que foi utilizado para realizar fine-tuning do modelo SciBERT. Este dataset e o código estão disponíveis para consulta pela comunidade, e o sistema pode ser testado online.