CommencerCommencez gratuitement

Noms de plume

Dans cet exercice, nous avons mis en place une classe araignée qui, une fois terminée, récupérera les noms des auteurs à partir d'une version abrégée du répertoire des cours de DataCamp. Le site URL pour la version abrégée est stocké dans la variable url_short. Votre tâche consistera à créer la liste des noms d'auteurs extraits dans la méthode parse du spider.

Deux choses à savoir :

  • Vous utiliserez ici l'objet response et la méthode css.
  • Les noms des auteurs de cours sont définis par le texte du paragraphe p qui appartient à la classe course-block__author-name

Vous pouvez inspecter l'araignée à l'aide de la fonction inspect_spider() que nous avons créée pour vous - elle imprimera les noms d'auteur que vous aurez trouvés !

Notez que le chargement de cet exercice et des autres exercices de ce chapitre peut prendre un certain temps.

Cet exercice fait partie du cours

<cours>Web Scraping en Python</cours>
Voir le cours

Instructions de l’exercice

  • Complétez les arguments requis pour la méthode parse afin qu'elle fonctionne comme prévu lorsqu'elle est appelée dans la méthode start_requests.
  • Dans la méthode parse, créez une variable author_names, qui est une liste de chaînes créées en extrayant le texte des éléments de paragraphe appartenant à la classe course-block__author-name.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Modifier et exécuter le code