CommencerCommencer gratuitement

Lancez les URLs

Dans la prochaine leçon, nous parlerons de la méthode start_requests dans la classe spider. Dans cet exercice rapide, nous vous demandons de modifier une variable dans la méthode start_requests, ce qui préfigure une partie de ce que nous apprendrons dans la prochaine leçon. En fait, nous voulons que vous commenciez à vous familiariser avec les rouages d'une classe d'araignée ; dans ce cas, il s'agit de créer une liste de urls dans le cadre de la méthode start_requests.

Nous avons écrit une fonction inspect_class qui imprimera la liste des éléments que vous avez dans la variable urls au sein de la méthode start_requests.

Remarque: dans les prochains exercices, vous écrirez du code pour compléter votre classe d'araignée, mais le code n'inclut pas encore les éléments permettant de faire fonctionner l'araignée ; cela viendra à la fin.

Cet exercice fait partie du cours

Web Scraping en Python

Afficher le cours

Instructions

  • Remplissez le vide dans la méthode start_requests pour affecter à la variable urls une liste contenant les deux chaînes de caractères : "https://www.datacamp.com" et"https://scrapy.org".

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import scrapy library
import scrapy

# Create the spider class
class YourSpider( scrapy.Spider ):
  name = "your_spider"
  # start_requests method
  def start_requests( self ):
    urls = ____
    for url in urls:
      yield url
  # parse method
  def parse( self, response ):
    pass
  
# Inspect Your Class
inspect_class( YourSpider )
Modifier et exécuter le code