Pen-Namen
In dieser Aufgabe haben wir eine Spider-Klasse eingerichtet, die, wenn sie fertig ist, die Autorennamen aus einer gekürzten Version des DataCamp-Kursverzeichnisses abruft. Die URL für die verkürzte Version wird in der Variable url_short
gespeichert. Deine Aufgabe wird es sein, die Liste der extrahierten Autorennamen in der parse
-Methode des Spiders zu erstellen.
Zwei Dinge solltest du wissen:
- Du wirst hier das Objekt
response
und die Methodecss
verwenden. - Die Namen der Kursautoren werden durch den Text innerhalb der
p
-Absatzelemente definiert, die zur Klassecourse-block__author-name
gehören.
Du kannst den Spider mit der Funktion inspect_spider()
untersuchen, die wir für dich gebaut haben – er wird die gefundenen Autorennamen ausdrucken!
Beachte, dass es einige Zeit dauern kann, bis diese und die anderen Aufgaben in diesem Kapitel geladen sind.
Diese Übung ist Teil des Kurses
Web Scraping in Python
Anleitung zur Übung
- Fülle die erforderlichen Argumente für die Parse-Methode aus, damit sie wie gewünscht funktioniert, wenn sie in der Methode
start_requests
aufgerufen wird. - Erstelle in der Methode
parse
eine Variableauthor_names
, die eine Liste von Strings ist, die durch Extraktion des Textes aus den Absatzelementen der Klassecourse-block__author-name
erstellt wurde.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the scrapy library
import scrapy
# Create the Spider class
class DCspider( scrapy.Spider ):
name = 'dcspider'
# start_requests method
def start_requests( self ):
yield scrapy.Request( url = url_short, callback = self.parse )
# parse method
def parse( ____ ):
# Create an extracted list of course author names
____
# Here we will just return the list of Authors
return author_names
# Inspect the spider
inspect_spider( DCspider )