Aan de slagGa gratis aan de slag

Eindopdracht-crawler

In deze oefening kun je laten zien wat je hebt geleerd! Je gaat de parse-functie voor een spider schrijven en daarna een paar invulpunten aanvullen om de spider af te ronden. Op de cursusoverzichtspagina van DataCamp heeft elke vermelde cursus een titel en een korte cursusbeschrijving. Deze spider wordt gebruikt om het overzicht te scrapen en de cursustitels en korte beschrijvingen te verzamelen. Je hoeft dit keer geen links te volgen. Alles wat je moet weten is:

  • De cursustitels staan in de tekst van een h4-element waarvan de class de string block__title (dubbele underscore) bevat.
  • De korte cursusbeschrijvingen staan in de tekst van een paragraaf p-element waarvan de class de string block__description (dubbele underscore) bevat.

Deze oefening maakt deel uit van de cursus

Webscraping in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# parse method
def parse(self, response):
  # Extracted course titles
  crs_titles = response.xpath(____).extract()
  # Extracted course descriptions
  crs_descrs = response.xpath(____).extract()
  # Fill in the dictionary: it is the spider output
  for crs_title, crs_descr in zip(crs_titles, crs_descrs):
    dc_dict[crs_title] = crs_descr
Code bewerken en uitvoeren