Eindopdracht-crawler
In deze oefening kun je laten zien wat je hebt geleerd! Je gaat de parse-functie voor een spider schrijven en daarna een paar invulpunten aanvullen om de spider af te ronden. Op de cursusoverzichtspagina van DataCamp heeft elke vermelde cursus een titel en een korte cursusbeschrijving. Deze spider wordt gebruikt om het overzicht te scrapen en de cursustitels en korte beschrijvingen te verzamelen. Je hoeft dit keer geen links te volgen. Alles wat je moet weten is:
- De cursustitels staan in de tekst van een
h4-element waarvan de class de stringblock__title(dubbele underscore) bevat. - De korte cursusbeschrijvingen staan in de tekst van een paragraaf
p-element waarvan de class de stringblock__description(dubbele underscore) bevat.
Deze oefening maakt deel uit van de cursus
Webscraping in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# parse method
def parse(self, response):
# Extracted course titles
crs_titles = response.xpath(____).extract()
# Extracted course descriptions
crs_descrs = response.xpath(____).extract()
# Fill in the dictionary: it is the spider output
for crs_title, crs_descr in zip(crs_titles, crs_descrs):
dc_dict[crs_title] = crs_descr