LoslegenKostenlos loslegen

Capstone-Crawler

Bei dieser Aufgabe kannst du zeigen, was du gelernt hast! In dieser Aufgabe schreibst du die Parse-Funktion für einen Spider und füllst dann ein paar Lücken aus, um den Spider fertigzustellen. Auf der Kursverzeichnis-Seite von DataCamp hat jeder aufgelistete Kurs einen Titel und eine kurze Kursbeschreibung. Mit diesem Spider wird das Kursverzeichnis durchsucht, um die Kurstitel und kurzen Kursbeschreibungen zu extrahieren. Dieses Mal musst du keinen Links folgen. Alles, was du wissen musst, ist:

  • Die Kurstitel werden durch den Text innerhalb eines h4-Elements definiert, dessen Klasse die Zeichenfolge block__title (doppelter Unterstrich) enthält.
  • Die kurzen Kursbeschreibungen werden durch den Text innerhalb eines p-Absatzelements definiert, dessen Klasse den String block__description (doppelter Unterstrich) enthält.

Diese Übung ist Teil des Kurses

Web Scraping in Python

Kurs anzeigen

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# parse method
def parse(self, response):
  # Extracted course titles
  crs_titles = response.xpath(____).extract()
  # Extracted course descriptions
  crs_descrs = response.xpath(____).extract()
  # Fill in the dictionary: it is the spider output
  for crs_title, crs_descr in zip(crs_titles, crs_descrs):
    dc_dict[crs_title] = crs_descr
Code bearbeiten und ausführen