Crawler finale
Questo esercizio è l’occasione per mettere in mostra ciò che hai imparato! Scriverai la funzione parse di uno spider e poi completerai alcuni spazi vuoti per finirlo. Nella pagina dell’elenco dei corsi su DataCamp, ogni corso ha un titolo e una breve descrizione. Questo spider servirà per fare scraping della directory dei corsi ed estrarre i titoli dei corsi e le brevi descrizioni. Questa volta non dovrai seguire alcun link. Ti basta sapere che:
- I titoli dei corsi sono definiti dal testo all’interno di un elemento
h4la cui classe contiene la stringablock__title(doppio underscore). - Le brevi descrizioni dei corsi sono definite dal testo all’interno di un elemento paragrafo
pla cui classe contiene la stringablock__description(doppio underscore).
Questo esercizio fa parte del corso
Web Scraping in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# parse method
def parse(self, response):
# Extracted course titles
crs_titles = response.xpath(____).extract()
# Extracted course descriptions
crs_descrs = response.xpath(____).extract()
# Fill in the dictionary: it is the spider output
for crs_title, crs_descr in zip(crs_titles, crs_descrs):
dc_dict[crs_title] = crs_descr