Commencer par les demandes de démarrage
Dans la dernière leçon, nous avons appris à mettre en place la méthode start_requests
à l'intérieur d'une araignée scrapy
. Ici, nous avons un autre modèle de spider qui ne scrape rien, mais qui vous permet de jouer avec la méthode start_requests. Ce que nous voulons, c'est que vous commenciez à vous familiariser avec les arguments que vous transmettez à l'appel scrapy.Request
dans start_requests
.
Comme précédemment, nous avons créé la fonction inspect_class
pour examiner ce que vous produisez dans start_requests
.
Cet exercice fait partie du cours
Web Scraping en Python
Instructions
- Remplissez l'objet
scrapy
requis dans la classeYourSpider
nécessaire pour créer l'araignéescrapy
. - Remplissez l'espace vide dans l'appel à
scrapy.Request
au sein de la méthodestart_requests
afin que le URL que ce spider commence à scraper soit"https://www.datacamp.com"
et utilise la méthodeparse
(au sein de la classeYourSpider
) comme méthode pour analyser le site web.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import scrapy library
import scrapy
# Create the spider class
class YourSpider( ____ ):
name = "your_spider"
# start_requests method
def start_requests( self ):
yield scrapy.Request( ____ )
# parse method
def parse( self, response ):
pass
# Inspect Your Class
inspect_class( YourSpider )