IniziaInizia gratis

Crawler finale

Questo esercizio è l’occasione per mettere in mostra ciò che hai imparato! Scriverai la funzione parse di uno spider e poi completerai alcuni spazi vuoti per finirlo. Nella pagina dell’elenco dei corsi su DataCamp, ogni corso ha un titolo e una breve descrizione. Questo spider servirà per fare scraping della directory dei corsi ed estrarre i titoli dei corsi e le brevi descrizioni. Questa volta non dovrai seguire alcun link. Ti basta sapere che:

  • I titoli dei corsi sono definiti dal testo all’interno di un elemento h4 la cui classe contiene la stringa block__title (doppio underscore).
  • Le brevi descrizioni dei corsi sono definite dal testo all’interno di un elemento paragrafo p la cui classe contiene la stringa block__description (doppio underscore).

Questo esercizio fa parte del corso

Web Scraping in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# parse method
def parse(self, response):
  # Extracted course titles
  crs_titles = response.xpath(____).extract()
  # Extracted course descriptions
  crs_descrs = response.xpath(____).extract()
  # Fill in the dictionary: it is the spider output
  for crs_title, crs_descr in zip(crs_titles, crs_descrs):
    dc_dict[crs_title] = crs_descr
Modifica ed esegui il codice