Nombres de pluma
En este ejercicio, hemos creado una clase araña que, cuando termine, recuperará los nombres de los autores de una versión abreviada del directorio del curso DataCamp. El URL de la versión abreviada se almacena en la variable url_short
. Tu trabajo consistirá en crear la lista de nombres de autor extraídos en el método parse
de la araña.
Dos cosas que debes saber:
- Aquí utilizarás el objeto
response
y el métodocss
. - Los nombres de los autores de los cursos están definidos por el texto dentro del párrafo
p
elementos pertenecientes a la clasecourse-block__author-name
Puedes inspeccionar la araña utilizando la función inspect_spider()
que hemos construido para ti: ¡imprimirá los nombres de autor que encuentres!
Ten en cuenta que éste y el resto de ejercicios de este capítulo pueden tardar un poco en cargarse.
Este ejercicio forma parte del curso
Web scraping en Python
Instrucciones del ejercicio
- Introduce los argumentos necesarios en el método de análisis sintáctico para que funcione como es debido cuando se llame al método
start_requests
. - Dentro del método
parse
, crea una variableauthor_names
, que es una lista de cadenas creada extrayendo el texto de los elementos de párrafo pertenecientes a la clasecourse-block__author-name
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import the scrapy library
import scrapy
# Create the Spider class
class DCspider( scrapy.Spider ):
name = 'dcspider'
# start_requests method
def start_requests( self ):
yield scrapy.Request( url = url_short, callback = self.parse )
# parse method
def parse( ____ ):
# Create an extracted list of course author names
____
# Here we will just return the list of Authors
return author_names
# Inspect the spider
inspect_spider( DCspider )