Capstone Crawler

Cet exercice vous donne l'occasion de montrer ce que vous avez appris ! Dans cet exercice, vous écrirez la fonction d'analyse d'une araignée, puis vous remplirez quelques blancs pour terminer l'araignée. Sur la page de l'annuaire des cours de DataCamp, chaque cours répertorié a un titre et une courte description. Ce spider sera utilisé pour explorer le répertoire des cours afin d'en extraire les titres et les descriptions succinctes. Vous n'aurez pas besoin de suivre de liens cette fois-ci. Tout ce que vous devez savoir est :

Les titres des cours sont définis par le texte d'un élément h4 dont la classe contient la chaîne block__title (double soulignement).
Les descriptions des formations courtes sont définies par le texte à l'intérieur d'un paragraphe p dont la classe contient la chaîne block__description (double soulignement).

Cet exercice fait partie du cours

<cours>Web Scraping en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# parse method
def parse(self, response):
  # Extracted course titles
  crs_titles = response.xpath(____).extract()
  # Extracted course descriptions
  crs_descrs = response.xpath(____).extract()
  # Fill in the dictionary: it is the spider output
  for crs_title, crs_descr in zip(crs_titles, crs_descrs):
    dc_dict[crs_title] = crs_descr

Modifier et exécuter le code