Commencer par les demandes de démarrage
Dans la dernière leçon, nous avons appris à mettre en place la méthode start_requests à l'intérieur d'une araignée scrapy. Ici, nous avons un autre modèle de spider qui ne scrape rien, mais qui vous permet de jouer avec la méthode start_requests. Ce que nous voulons, c'est que vous commenciez à vous familiariser avec les arguments que vous transmettez à l'appel scrapy.Request dans start_requests.
Comme précédemment, nous avons créé la fonction inspect_class pour examiner ce que vous produisez dans start_requests.
Cet exercice fait partie du cours
Web Scraping en Python
Instructions
- Remplissez l'objet
scrapyrequis dans la classeYourSpidernécessaire pour créer l'araignéescrapy. - Remplissez l'espace vide dans l'appel à
scrapy.Requestau sein de la méthodestart_requestsafin que le URL que ce spider commence à scraper soit"https://www.datacamp.com"et utilise la méthodeparse(au sein de la classeYourSpider) comme méthode pour analyser le site web.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import scrapy library
import scrapy
# Create the spider class
class YourSpider( ____ ):
name = "your_spider"
# start_requests method
def start_requests( self ):
yield scrapy.Request( ____ )
# parse method
def parse( self, response ):
pass
# Inspect Your Class
inspect_class( YourSpider )