Schuilnamen
In deze oefening hebben we een spiderklasse opgezet die, zodra hij af is, de auteursnamen ophaalt uit een verkorte versie van de DataCamp-cursusdirectory. De URL voor de verkorte versie staat in de variabele url_short. Jouw taak is om in de parse-methode van de spider de lijst met geëxtraheerde auteursnamen te maken.
Twee dingen die je moet weten:
- Je gebruikt hier het
response-object en de methodecss. - De cursusauteursnamen staan als tekst binnen de paragraaf-elementen
pdie behoren tot de klassecourse-block__author-name.
Je kunt de spider inspecteren met de functie inspect_spider() die we voor je hebben gebouwd — die print de auteursnamen die je vindt!
Let op: deze en de resterende oefeningen in dit hoofdstuk kunnen even duren om te laden.
Deze oefening maakt deel uit van de cursus
Webscraping in Python
Oefeninstructies
- Vul de vereiste argumenten in voor de parse-methode zodat deze werkt zoals bedoeld wanneer hij wordt aangeroepen in de
start_requests-methode. - Maak binnen de
parse-methode een variabeleauthor_names, een lijst met strings die je maakt door de tekst te extraheren uit de paragraafelementen die tot de klassecourse-block__author-namebehoren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the scrapy library
import scrapy
# Create the Spider class
class DCspider( scrapy.Spider ):
name = 'dcspider'
# start_requests method
def start_requests( self ):
yield scrapy.Request( url = url_short, callback = self.parse )
# parse method
def parse( ____ ):
# Create an extracted list of course author names
____
# Here we will just return the list of Authors
return author_names
# Inspect the spider
inspect_spider( DCspider )