Aan de slagGa gratis aan de slag

Schuilnamen

In deze oefening hebben we een spiderklasse opgezet die, zodra hij af is, de auteursnamen ophaalt uit een verkorte versie van de DataCamp-cursusdirectory. De URL voor de verkorte versie staat in de variabele url_short. Jouw taak is om in de parse-methode van de spider de lijst met geëxtraheerde auteursnamen te maken.

Twee dingen die je moet weten:

  • Je gebruikt hier het response-object en de methode css.
  • De cursusauteursnamen staan als tekst binnen de paragraaf-elementen p die behoren tot de klasse course-block__author-name.

Je kunt de spider inspecteren met de functie inspect_spider() die we voor je hebben gebouwd — die print de auteursnamen die je vindt!

Let op: deze en de resterende oefeningen in dit hoofdstuk kunnen even duren om te laden.

Deze oefening maakt deel uit van de cursus

Webscraping in Python

Cursus bekijken

Oefeninstructies

  • Vul de vereiste argumenten in voor de parse-methode zodat deze werkt zoals bedoeld wanneer hij wordt aangeroepen in de start_requests-methode.
  • Maak binnen de parse-methode een variabele author_names, een lijst met strings die je maakt door de tekst te extraheren uit de paragraafelementen die tot de klasse course-block__author-name behoren.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Code bewerken en uitvoeren