LoslegenKostenlos loslegen

Pen-Namen

In dieser Aufgabe haben wir eine Spider-Klasse eingerichtet, die, wenn sie fertig ist, die Autorennamen aus einer gekürzten Version des DataCamp-Kursverzeichnisses abruft. Die URL für die verkürzte Version wird in der Variable url_short gespeichert. Deine Aufgabe wird es sein, die Liste der extrahierten Autorennamen in der parse-Methode des Spiders zu erstellen.

Zwei Dinge solltest du wissen:

  • Du wirst hier das Objekt response und die Methode css verwenden.
  • Die Namen der Kursautoren werden durch den Text innerhalb der p-Absatzelemente definiert, die zur Klasse course-block__author-name gehören.

Du kannst den Spider mit der Funktion inspect_spider() untersuchen, die wir für dich gebaut haben – er wird die gefundenen Autorennamen ausdrucken!

Beachte, dass es einige Zeit dauern kann, bis diese und die anderen Aufgaben in diesem Kapitel geladen sind.

Diese Übung ist Teil des Kurses

Web Scraping in Python

Kurs anzeigen

Anleitung zur Übung

  • Fülle die erforderlichen Argumente für die Parse-Methode aus, damit sie wie gewünscht funktioniert, wenn sie in der Methode start_requests aufgerufen wird.
  • Erstelle in der Methode parse eine Variable author_names, die eine Liste von Strings ist, die durch Extraktion des Textes aus den Absatzelementen der Klasse course-block__author-name erstellt wurde.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Code bearbeiten und ausführen