IniziaInizia gratis

Pseudonimi

In questo esercizio abbiamo predisposto una classe spider che, una volta completata, recupererà i nomi degli autori da una versione ridotta dell’elenco dei corsi di DataCamp. L’URL della versione ridotta è salvato nella variabile url_short. Il tuo compito è creare, nel metodo parse dello spider, l’elenco dei nomi degli autori estratti.

Due cose da sapere:

  • Qui userai l’oggetto response e il metodo css.
  • I nomi degli autori dei corsi sono definiti dal testo all’interno degli elementi paragrafo p appartenenti alla classe course-block__author-name.

Puoi ispezionare lo spider usando la funzione inspect_spider() che abbiamo preparato per te: stamperà i nomi degli autori che trovi!

Nota: questo esercizio e i restanti di questo capitolo potrebbero impiegare un po’ di tempo a caricarsi.

Questo esercizio fa parte del corso

Web Scraping in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Compila gli argomenti richiesti del metodo parse in modo che funzioni correttamente quando viene chiamato nel metodo start_requests.
  • All’interno del metodo parse, crea una variabile author_names, che sia una lista di stringhe ottenute estraendo il testo dagli elementi paragrafo appartenenti alla classe course-block__author-name.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Modifica ed esegui il codice