CommencerCommencer gratuitement

Commencer par les demandes de démarrage

Dans la dernière leçon, nous avons appris à mettre en place la méthode start_requests à l'intérieur d'une araignée scrapy. Ici, nous avons un autre modèle de spider qui ne scrape rien, mais qui vous permet de jouer avec la méthode start_requests. Ce que nous voulons, c'est que vous commenciez à vous familiariser avec les arguments que vous transmettez à l'appel scrapy.Request dans start_requests.

Comme précédemment, nous avons créé la fonction inspect_class pour examiner ce que vous produisez dans start_requests.

Cet exercice fait partie du cours

Web Scraping en Python

Afficher le cours

Instructions

  • Remplissez l'objet scrapy requis dans la classe YourSpider nécessaire pour créer l'araignée scrapy.
  • Remplissez l'espace vide dans l'appel à scrapy.Request au sein de la méthode start_requests afin que le URL que ce spider commence à scraper soit "https://www.datacamp.com" et utilise la méthode parse (au sein de la classe YourSpider ) comme méthode pour analyser le site web.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import scrapy library
import scrapy

# Create the spider class
class YourSpider( ____ ):
  name = "your_spider"
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( ____ )
  # parse method
  def parse( self, response ):
    pass
  
# Inspect Your Class
inspect_class( YourSpider )
Modifier et exécuter le code