Noms de plume
Dans cet exercice, nous avons mis en place une classe araignée qui, une fois terminée, récupérera les noms des auteurs à partir d'une version abrégée du répertoire des cours de DataCamp. Le site URL pour la version abrégée est stocké dans la variable url_short
. Votre tâche consistera à créer la liste des noms d'auteurs extraits dans la méthode parse
du spider.
Deux choses à savoir :
- Vous utiliserez ici l'objet
response
et la méthodecss
. - Les noms des auteurs de cours sont définis par le texte du paragraphe
p
qui appartient à la classecourse-block__author-name
Vous pouvez inspecter l'araignée à l'aide de la fonction inspect_spider()
que nous avons créée pour vous - elle imprimera les noms d'auteur que vous aurez trouvés !
Notez que le chargement de cet exercice et des autres exercices de ce chapitre peut prendre un certain temps.
Cet exercice fait partie du cours
Web Scraping en Python
Instructions
- Complétez les arguments requis pour la méthode parse afin qu'elle fonctionne comme prévu lorsqu'elle est appelée dans la méthode
start_requests
. - Dans la méthode
parse
, créez une variableauthor_names
, qui est une liste de chaînes créées en extrayant le texte des éléments de paragraphe appartenant à la classecourse-block__author-name
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the scrapy library
import scrapy
# Create the Spider class
class DCspider( scrapy.Spider ):
name = 'dcspider'
# start_requests method
def start_requests( self ):
yield scrapy.Request( url = url_short, callback = self.parse )
# parse method
def parse( ____ ):
# Create an extracted list of course author names
____
# Here we will just return the list of Authors
return author_names
# Inspect the spider
inspect_spider( DCspider )