CommencerCommencer gratuitement

Noms de plume

Dans cet exercice, nous avons mis en place une classe araignée qui, une fois terminée, récupérera les noms des auteurs à partir d'une version abrégée du répertoire des cours de DataCamp. Le site URL pour la version abrégée est stocké dans la variable url_short. Votre tâche consistera à créer la liste des noms d'auteurs extraits dans la méthode parse du spider.

Deux choses à savoir :

  • Vous utiliserez ici l'objet response et la méthode css.
  • Les noms des auteurs de cours sont définis par le texte du paragraphe p qui appartient à la classe course-block__author-name

Vous pouvez inspecter l'araignée à l'aide de la fonction inspect_spider() que nous avons créée pour vous - elle imprimera les noms d'auteur que vous aurez trouvés !

Notez que le chargement de cet exercice et des autres exercices de ce chapitre peut prendre un certain temps.

Cet exercice fait partie du cours

Web Scraping en Python

Afficher le cours

Instructions

  • Complétez les arguments requis pour la méthode parse afin qu'elle fonctionne comme prévu lorsqu'elle est appelée dans la méthode start_requests.
  • Dans la méthode parse, créez une variable author_names, qui est une liste de chaînes créées en extrayant le texte des éléments de paragraphe appartenant à la classe course-block__author-name.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Modifier et exécuter le code