Hurl com URLs
Na próxima lição, vamos falar do método start_requests
na classe spider. Neste rápido exercício, pedimos que você altere uma variável no método start_requests
, o que antecipa parte do que vamos aprender na próxima lição. Basicamente, queremos que você comece a ficar à vontade para mexer em alguns elementos de uma classe spider; nesse caso, criar uma lista de urls
no método start_requests
.
Escrevemos uma função chamada inspect_class
, que imprime a lista de elementos que você tem na variável urls
dentro do método start_requests
.
Observação: nos próximos exercícios, você deve escrever o código para completar sua classe spider, mas o código ainda não inclui as partes para executar o spider de verdade; isso virá no final.
Este exercício faz parte do curso
Raspagem da Web em Python
Instruções de exercício
- Preencha o espaço em branco no método
start_requests
para atribuir à variávelurls
uma lista com as duas strings:"https://www.datacamp.com"
e"https://scrapy.org"
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import scrapy library
import scrapy
# Create the spider class
class YourSpider( scrapy.Spider ):
name = "your_spider"
# start_requests method
def start_requests( self ):
urls = ____
for url in urls:
yield url
# parse method
def parse( self, response ):
pass
# Inspect Your Class
inspect_class( YourSpider )