Pseudonimi

In questo esercizio abbiamo predisposto una classe spider che, una volta completata, recupererà i nomi degli autori da una versione ridotta dell’elenco dei corsi di DataCamp. L’URL della versione ridotta è salvato nella variabile url_short. Il tuo compito è creare, nel metodo parse dello spider, l’elenco dei nomi degli autori estratti.

Due cose da sapere:

Qui userai l’oggetto response e il metodo css.
I nomi degli autori dei corsi sono definiti dal testo all’interno degli elementi paragrafo p appartenenti alla classe course-block__author-name.

Puoi ispezionare lo spider usando la funzione inspect_spider() che abbiamo preparato per te: stamperà i nomi degli autori che trovi!

Nota: questo esercizio e i restanti di questo capitolo potrebbero impiegare un po’ di tempo a caricarsi.

Questo esercizio fa parte del corso

Web Scraping in Python

Visualizza corso

Istruzioni dell'esercizio

Compila gli argomenti richiesti del metodo parse in modo che funzioni correttamente quando viene chiamato nel metodo start_requests.
All’interno del metodo parse, crea una variabile author_names, che sia una lista di stringhe ottenute estraendo il testo dagli elementi paragrafo appartenenti alla classe course-block__author-name.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )

Modifica ed esegui il codice