LoslegenKostenlos starten

Pen-Namen

In dieser Aufgabe haben wir eine Spider-Klasse eingerichtet, die, wenn sie fertig ist, die Autorennamen aus einer gekürzten Version des DataCamp-Kursverzeichnisses abruft. Die URL für die verkürzte Version wird in der Variable url_short gespeichert. Deine Aufgabe wird es sein, die Liste der extrahierten Autorennamen in der parse-Methode des Spiders zu erstellen.

Zwei Dinge solltest du wissen:

  • Du wirst hier das Objekt response und die Methode css verwenden.
  • Die Namen der Kursautoren werden durch den Text innerhalb der p-Absatzelemente definiert, die zur Klasse course-block__author-name gehören.

Du kannst den Spider mit der Funktion inspect_spider() untersuchen, die wir für dich gebaut haben – er wird die gefundenen Autorennamen ausdrucken!

Beachte, dass es einige Zeit dauern kann, bis diese und die anderen Aufgaben in diesem Kapitel geladen sind.

Diese Übung ist Teil des Kurses

<Kurs>Web Scraping in Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Fülle die erforderlichen Argumente für die Parse-Methode aus, damit sie wie gewünscht funktioniert, wenn sie in der Methode start_requests aufgerufen wird.
  • Erstelle in der Methode parse eine Variable author_names, die eine Liste von Strings ist, die durch Extraktion des Textes aus den Absatzelementen der Klasse course-block__author-name erstellt wurde.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Code bearbeiten und ausführen