Aan de slagBegin gratis

Schuilnamen

In deze oefening hebben we een spiderklasse opgezet die, zodra hij af is, de auteursnamen ophaalt uit een verkorte versie van de DataCamp-cursusdirectory. De URL voor de verkorte versie staat in de variabele url_short. Jouw taak is om in de parse-methode van de spider de lijst met geëxtraheerde auteursnamen te maken.

Twee dingen die je moet weten:

  • Je gebruikt hier het response-object en de methode css.
  • De cursusauteursnamen staan als tekst binnen de paragraaf-elementen p die behoren tot de klasse course-block__author-name.

Je kunt de spider inspecteren met de functie inspect_spider() die we voor je hebben gebouwd — die print de auteursnamen die je vindt!

Let op: deze en de resterende oefeningen in dit hoofdstuk kunnen even duren om te laden.

Deze oefening maakt deel uit van de cursus

Webscraping in Python

Bekijk cursus

Oefeninstructies

  • Vul de vereiste argumenten in voor de parse-methode zodat deze werkt zoals bedoeld wanneer hij wordt aangeroepen in de start_requests-methode.
  • Maak binnen de parse-methode een variabele author_names, een lijst met strings die je maakt door de tekst te extraheren uit de paragraafelementen die tot de klasse course-block__author-name behoren.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Code bewerken en uitvoeren