Pseudonimi
In questo esercizio abbiamo predisposto una classe spider che, una volta completata, recupererà i nomi degli autori da una versione ridotta dell’elenco dei corsi di DataCamp. L’URL della versione ridotta è salvato nella variabile url_short. Il tuo compito è creare, nel metodo parse dello spider, l’elenco dei nomi degli autori estratti.
Due cose da sapere:
- Qui userai l’oggetto
responsee il metodocss. - I nomi degli autori dei corsi sono definiti dal testo all’interno degli elementi paragrafo
pappartenenti alla classecourse-block__author-name.
Puoi ispezionare lo spider usando la funzione inspect_spider() che abbiamo preparato per te: stamperà i nomi degli autori che trovi!
Nota: questo esercizio e i restanti di questo capitolo potrebbero impiegare un po’ di tempo a caricarsi.
Questo esercizio fa parte del corso
Web Scraping in Python
Istruzioni dell'esercizio
- Compila gli argomenti richiesti del metodo parse in modo che funzioni correttamente quando viene chiamato nel metodo
start_requests. - All’interno del metodo
parse, crea una variabileauthor_names, che sia una lista di stringhe ottenute estraendo il testo dagli elementi paragrafo appartenenti alla classecourse-block__author-name.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the scrapy library
import scrapy
# Create the Spider class
class DCspider( scrapy.Spider ):
name = 'dcspider'
# start_requests method
def start_requests( self ):
yield scrapy.Request( url = url_short, callback = self.parse )
# parse method
def parse( ____ ):
# Create an extracted list of course author names
____
# Here we will just return the list of Authors
return author_names
# Inspect the spider
inspect_spider( DCspider )