Capstone Crawler
Cet exercice vous donne l'occasion de montrer ce que vous avez appris ! Dans cet exercice, vous écrirez la fonction d'analyse d'une araignée, puis vous remplirez quelques blancs pour terminer l'araignée. Sur la page de l'annuaire des cours de DataCamp, chaque cours répertorié a un titre et une courte description. Ce spider sera utilisé pour explorer le répertoire des cours afin d'en extraire les titres et les descriptions succinctes. Vous n'aurez pas besoin de suivre de liens cette fois-ci. Tout ce que vous devez savoir est :
- Les titres des cours sont définis par le texte d'un élément
h4
dont la classe contient la chaîneblock__title
(double soulignement). - Les descriptions des formations courtes sont définies par le texte à l'intérieur d'un paragraphe
p
dont la classe contient la chaîneblock__description
(double soulignement).
Cet exercice fait partie du cours
Web Scraping en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# parse method
def parse(self, response):
# Extracted course titles
crs_titles = response.xpath(____).extract()
# Extracted course descriptions
crs_descrs = response.xpath(____).extract()
# Fill in the dictionary: it is the spider output
for crs_title, crs_descr in zip(crs_titles, crs_descrs):
dc_dict[crs_title] = crs_descr