- This topic has 2 replies, 2 voices, and was last updated 2 years ago by .
Viewing 3 posts - 1 through 3 (of 3 total)
Viewing 3 posts - 1 through 3 (of 3 total)
- You must be logged in to reply to this topic.
Home › Forums › Fórum Inteligência Artificial: Buscas em Textos com Python › Spyder: Funciona com alguns Crawl(s) e não funciona com um especifico
#Não funciona com a pagina: ‘https://www.investsite.com.br/’
import urllib3
from bs4 import BeautifulSoup
def crawl(pagina):
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
http=urllib3.PoolManager()
try:
dados_pagina = http.request(‘GET’, pagina)
except:
print(‘Erro abrindo pagina’ + pagina)
sopa=BeautifulSoup(dados_pagina.data, “lxml”)
links=sopa.find_all(‘a’)
for link in links:
print(str(link.contents) + “-” + str(link.get(‘href’)))
crawl(‘https://www.investsite.com.br’)
a url correta é: https://www.investsite.com.br
crawl(‘https://www.investsite.com.br’)
Apos ENVIAR o post, é adicionado o residuo 8#8217
Olá Jaime,
Se você clicar no link que termina com esse resíduo, vai ver que retorna uma mensagem de erro dizendo que ela não existe. Esta URL está incorreta.