O que você aprenderá
- Entender a teoria e os cálculos matemáticos dos algoritmos de sumarização de textos
- Implementar passo a passo com o Python os seguintes algoritmos de sumarização: baseado em frequência, baseado em distância e o clássico algoritmo de Luhn
- Utilizar as seguintes bibliotecas para sumarização de textos: sumy, pysummarization e BERT summarizer
- Sumarizar artigos extraídos de páginas web e feed de notícias
- Gerar resumos de textos no idioma português
- Utilizar as bibliotecas NLTK e spaCy e o Google Colab para suas implementações de processamento de linguagem natural
- Criar visualizações em HTML para apresentação dos resumos dos textos
Requisitos
- Lógica de programação, principalmente estruturas condicionais e de repetição
- Básico da linguagem Python
Descrição
A área de Processamento de Linguagem Natural – PLN (Natural Language Processing – NLP) é uma subárea da Inteligência Artificial que tem como objetivo tornar os computadores capazes de entender a linguagem humana, tanto escrita quanto falada. Alguns exemplo de aplicações práticas são: tradutores entre idiomas, tradução de texto para fala ou fala para texto, chatbots, sistemas automáticos de perguntas e respostas, geração automática de descrições para imagens, adição de legendas em vídeos, classificação de sentimentos em frases, dentre várias outras! Outro exemplo importante de aplicação é a sumarização automática de documentos, que consiste em gerar resumos de textos. Vamos supor que você precise ler um artigo com 50 páginas, porém, não possui tempo suficiente para ler o texto integral. Nesse caso, você pode utilizar um algoritmo de sumarização para gerar um resumo deste artigo. O tamanho deste resumo pode ser configurável, ou seja, você pode transformar 50 páginas em um texto com somente 20 páginas que contenha somente os pontos mais importantes do texto!
Baseado nisso, este curso apresenta a teoria e principalmente a prática de três algoritmos de sumarização de textos: (i) baseado em frequência, (ii) baseado em distância e o (iii) famoso e clássico algoritmo de Luhn, que foi um dos primeiros esforços nessa área. Durante as aulas, implementaremos passo a passo cada um desses algoritmos utilizando tecnologias modernas, como a linguagem de programação Python, as bibliotecas NLTK (Natural Language Toolkit) e spaCy e o Google Colab, o que garantirá que você não terá problemas com instalações ou configurações de softwares na sua máquina local.
Além de implementar os algoritmos, você também aprenderá como extrair notícias de blogs e de feed de notícias, bem como gerar visualizações interessantes dos resumos utilizando HTML! Após a implementação manual dos algoritmos, temos um módulo adicional no qual você utilizar bibliotecas específicas para sumarizar documentos, como por exemplo: sumy, pysummarization e BERT summarizer. Ao final do curso, você saberá tudo o que precisa para criar seus próprios algoritmos de sumarização!
Para quem é este curso
- Pessoas interessadas em processamento de linguagem natural e sumarização de textos
- Pessoas interessadas nas bibliotecas spaCy e NLTK
- Alunos de graduação e pós-graduação que estão estudando disciplinas ligadas a área de Inteligência Artificial
- Cientistas de Dados que queiram aumentar seus conhecimentos em processamento de linguagem natural
- Profissionais interessados em desenvolver soluções profissionais de sumarização de textos
Publicado em novembro de 2020
Gostei muito. Parabéns pela didática, material e qualidade do código! Faço apenas uma ressalva: precisa atualizar o curso pois estamos em 2024 e muita coisa mudou desde 2020. Fiquei um pouco frustrado por não mostrar recursos do BERT para a língua portugesa, que em 2024 já existe.