IA gera resumos de uma única frase de trabalhos científicos

Há alguns anos, pesquisadores e profissionais que dependem de publicações científicas tinham certo trabalho pra se manter atualizados sobre os avanços de suas áreas de interesse. A única forma de acessar estes documentos era através das revistas impressas onde eles eram veiculados. O pesquisador deveria primeiro encontrar a revista desejada nas bibliotecas próximas, e depois encontrar artigos interessantes dentro das publicações. Hoje em dia, graças à internet, toda a informação está facilmente disponível em qualquer dispositivo conectado à rede. Mas esta facilidade traz outro problema: como encontrar material relevante dentro deste universo de informação quase infinito?

A princípio, é para isso que serve o resumo no início de um artigo, mas mesmo eles podem ser extensos demais quando o pesquisador tem um número grande de artigos para consultar, ou complexos demais para uma busca inicial menos refinada. Uma solução para este problema foi apresentada em novembro pelo Instituto Allen para Inteligência Artificial, dos Estados Unidos. Partindo dos conceitos mais recentes de processamento de linguagem natural, eles desenvolveram um modelo baseado em inteligência artificial capaz de resumir trabalhos extensos em uma simples frase.

Há duas abordagens principais para gerar resumos de documentos. A primeira, extrativa, seleciona trechos representativos do texto original, usando estes trechos exatos como resumo do trabalho. A segunda, abstrativa, consegue identificar os principais conceitos e gerar textos curtos para representá-lo. A nova ferramenta faz uso desta abordagem. Comparando com os demais sistemas de sumarização disponíveis, ela alcança o maior nível de compressão, reduzindo um trabalho com média de 5000 palavras para um resumo de cerca de 21 palavras, o que representa 0,42% do texto original, contra cerca de 2,8% alcançado por seus competidores. Por esta razão, os pesquisadores batizaram seu método de sumarização de TLDR, uma referência à sigla TL;DR que é usada, em inglês, para identificar documentos “muito longos, não li” (too long, didn’t read).

O trabalho envolveu a criação de um dataset, SciTLDR, contendo mais de 5000 TLDRs gerados para mais de 3000 trabalhos científicos, e uma estratégia de aprendizagem batizada de CATTS para gerar TLDRs usando os títulos das publicações como sinal auxiliar. O método teve desempenho superior tanto por métricas automatizadas quando por avaliação humana da qualidade dos resumos.

A ferramenta está sendo testada como um serviço disponível no site de busca de trabalhos científicos Semantic Scholar, e os autores dizem que está sendo muito bem recebida. Pela alta taxa de compressão, os TLDRs devem aumentar a praticidade na busca de trabalhos científicos principalmente em dispositivos móveis como smartphones. Por enquanto, está disponível apenas para a área de ciência da computação, e para textos em inglês, mas os desenvolvedores pretendem aumentar esta oferta em breve. Além do trabalho publicado, os autores disponibilizaram uma demo e tornaram o código público. (Aliás, para ver como a ferramenta se sai sumarizando o próprio trabalho, siga este link).