O que você aprenderá
- Aprenda a construir um crawler do zero para buscar o conteúdo de páginas web
- Entenda como funcionam as bibliotecas urllib e BeautifulSoup do Python para processar páginas web
- Aprenda a indexar o conteúdo de páginas web utilizando o MySql
- Aprenda como classificar documentos por conteúdo, utilizando métricas como frequência de palavras, posição da palavra no documento e distância entre palavras
- Entenda e implemente o algoritmo PageRank para classificação de documentos utilizando links externos
Requisitos
- É recomendado conhecimento sobre lógica de programação, principalmente estruturas condicionais e de repetição
- Conhecimentos básicos em Python são desejáveis, embora seja possível acompanhar o curso sem saber essa linguagem com profundidade
- É necessário conhecer comandos SQL básicos, principalmente o “select” e o “insert”
- É importante entender o modelo entidade-relacionamento para a construção de bases de dados, principalmente chaves primárias e estrangeiras
- É recomendável que você saiba as principais tags HTML existentes em páginas web, embora seja possível acompanhar o curso sem esse conhecimento
- Não são necessários conhecimentos prévios sobre Inteligência Artificial
Descrição
Os sistemas de busca em texto representam uma importante área da Inteligência Artificial. Eles consistem em analisar grande volume de texto para retornarem para o usuário uma lista dos principais documentos encontrados de acordo com os parâmetros de busca. Os exemplos práticos mais comuns deste tipo de sistema são os motores de busca, como Google, Bing ou Yahoo; nos quais o usuário pode informar um conjunto de palavras e o sistema apresenta as páginas web mais relevantes. Para que isso seja possível, são utilizados uma série de algoritmos e/ou métricas que tem a função de indicar a ordem pela qual os documentos serão apresentados, ou seja, as páginas mais importantes serão mostradas no topo da pesquisa enquanto que as menos relavantes serão mostradas por último.
Baseado nisso, neste curso você vai aprender na teoria e principalmente na prática como desenvolver do zero um sistema para buscas em textos utilizando vários algoritmos para ordenação dos resultados. Você desenvolverá passo a passo todas as etapas de um sistema de busca, iniciando pelo crawler que buscará as páginas web utilizando o Python e as bibliotecas urllib3 e BeautifulSoup. Logo após passaremos para a fase da indexação, na qual o conteúdo das páginas web serão analisadas e faremos a gravação em uma base de dados no MySql. Por fim, implementaremos as seguintes pesquisas: consultas com uma ou múltiplas palavras, frequência de palavras, posição das palavras no documento e distância entre as palavras. Também veremos a classificação dos documentos utilizando o texto do link e por fim implementaremos o uso de links externas que é caracterizado pelo famoso algoritmo PageRank, que é considerado o algoritmo que ajudou muito na grande ascensão do Google e que hoje em dia é utilizado nos principais motores de busca. É importante enfatizar que o objetivo do curso é mostrar passo a passo a implementação do zero, portanto, não utilizaremos nenhuma biblioteca específica para esse cenário. Também não é objetivo do curso desenvolver uma interface web para a realização das pesquisas, ou seja, todos os testes serão realizados via prompt. Por fim, este material pode ser considerado de nível iniciante para quem está entrando tanto na área de Inteligência Artificial quanto na área de desenvolvimento de motores de busca.
Para quem é este curso
- Pessoas interessadas em Inteligência Artificial
- Pessoas interessadas na área de recuperação de informação de documentos textuais
Otimo