Spyder: Funciona com alguns Crawl(s) e não funciona com um especifico | IA Expert Academy

Tagged: Crawler+–+busca+de+documentos+I+(Crawler+e+indexador+de+documentos)

This topic has 2 replies, 2 voices, and was last updated 2 years, 1 month ago by Denny Ceccon.

Viewing 3 posts - 1 through 3 (of 3 total)

Author

Posts
2 de junho de 2024 at 13:02 #45315
Jaime Renato Stone Berg
Participant
#Não funciona com a pagina: ‘https://www.investsite.com.br/’

import urllib3
from bs4 import BeautifulSoup

def crawl(pagina):
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
http=urllib3.PoolManager()
try:
dados_pagina = http.request(‘GET’, pagina)
except:
print(‘Erro abrindo pagina’ + pagina)
sopa=BeautifulSoup(dados_pagina.data, “lxml”)
links=sopa.find_all(‘a’)
for link in links:
print(str(link.contents) + “-” + str(link.get(‘href’)))

crawl(‘https://www.investsite.com.br’)
2 de junho de 2024 at 13:06 #45316
Jaime Renato Stone Berg
Participant
a url correta é: https://www.investsite.com.br

crawl(‘https://www.investsite.com.br’)

Apos ENVIAR o post, é adicionado o residuo 8#8217
- This reply was modified 2 years, 2 months ago by Jaime Renato Stone Berg.
- This reply was modified 2 years, 2 months ago by Jaime Renato Stone Berg.
3 de junho de 2024 at 10:11 #45322
Denny Ceccon
Moderator
Olá Jaime,

Se você clicar no link que termina com esse resíduo, vai ver que retorna uma mensagem de erro dizendo que ela não existe. Esta URL está incorreta.
Author

Posts

Viewing 3 posts - 1 through 3 (of 3 total)

You must be logged in to reply to this topic.