Pen-Namen
In dieser Aufgabe haben wir eine Spider-Klasse eingerichtet, die, wenn sie fertig ist, die Autorennamen aus einer gekürzten Version des DataCamp-Kursverzeichnisses abruft. Die URL für die verkürzte Version wird in der Variable url_short gespeichert. Deine Aufgabe wird es sein, die Liste der extrahierten Autorennamen in der parse-Methode des Spiders zu erstellen.
Zwei Dinge solltest du wissen:
- Du wirst hier das Objekt
responseund die Methodecssverwenden. - Die Namen der Kursautoren werden durch den Text innerhalb der
p-Absatzelemente definiert, die zur Klassecourse-block__author-namegehören.
Du kannst den Spider mit der Funktion inspect_spider() untersuchen, die wir für dich gebaut haben – er wird die gefundenen Autorennamen ausdrucken!
Beachte, dass es einige Zeit dauern kann, bis diese und die anderen Aufgaben in diesem Kapitel geladen sind.
Diese Übung ist Teil des Kurses
<Kurs>Web Scraping in Python</Kurs>Übungsanweisungen
- Fülle die erforderlichen Argumente für die Parse-Methode aus, damit sie wie gewünscht funktioniert, wenn sie in der Methode
start_requestsaufgerufen wird. - Erstelle in der Methode
parseeine Variableauthor_names, die eine Liste von Strings ist, die durch Extraktion des Textes aus den Absatzelementen der Klassecourse-block__author-nameerstellt wurde.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the scrapy library
import scrapy
# Create the Spider class
class DCspider( scrapy.Spider ):
name = 'dcspider'
# start_requests method
def start_requests( self ):
yield scrapy.Request( url = url_short, callback = self.parse )
# parse method
def parse( ____ ):
# Create an extracted list of course author names
____
# Here we will just return the list of Authors
return author_names
# Inspect the spider
inspect_spider( DCspider )