Capstone-Crawler
Bei dieser Aufgabe kannst du zeigen, was du gelernt hast! In dieser Aufgabe schreibst du die Parse-Funktion für einen Spider und füllst dann ein paar Lücken aus, um den Spider fertigzustellen. Auf der Kursverzeichnis-Seite von DataCamp hat jeder aufgelistete Kurs einen Titel und eine kurze Kursbeschreibung. Mit diesem Spider wird das Kursverzeichnis durchsucht, um die Kurstitel und kurzen Kursbeschreibungen zu extrahieren. Dieses Mal musst du keinen Links folgen. Alles, was du wissen musst, ist:
- Die Kurstitel werden durch den Text innerhalb eines
h4
-Elements definiert, dessen Klasse die Zeichenfolgeblock__title
(doppelter Unterstrich) enthält. - Die kurzen Kursbeschreibungen werden durch den Text innerhalb eines
p
-Absatzelements definiert, dessen Klasse den Stringblock__description
(doppelter Unterstrich) enthält.
Diese Übung ist Teil des Kurses
Web Scraping in Python
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# parse method
def parse(self, response):
# Extracted course titles
crs_titles = response.xpath(____).extract()
# Extracted course descriptions
crs_descrs = response.xpath(____).extract()
# Fill in the dictionary: it is the spider output
for crs_title, crs_descr in zip(crs_titles, crs_descrs):
dc_dict[crs_title] = crs_descr