ComenzarEmpieza gratis

Nombres de pluma

En este ejercicio, hemos creado una clase araña que, cuando termine, recuperará los nombres de los autores de una versión abreviada del directorio del curso DataCamp. El URL de la versión abreviada se almacena en la variable url_short. Tu trabajo consistirá en crear la lista de nombres de autor extraídos en el método parse de la araña.

Dos cosas que debes saber:

  • Aquí utilizarás el objeto response y el método css.
  • Los nombres de los autores de los cursos están definidos por el texto dentro del párrafo p elementos pertenecientes a la clase course-block__author-name

Puedes inspeccionar la araña utilizando la función inspect_spider() que hemos construido para ti: ¡imprimirá los nombres de autor que encuentres!

Ten en cuenta que éste y el resto de ejercicios de este capítulo pueden tardar un poco en cargarse.

Este ejercicio forma parte del curso

Web scraping en Python

Ver curso

Instrucciones del ejercicio

  • Introduce los argumentos necesarios en el método de análisis sintáctico para que funcione como es debido cuando se llame al método start_requests.
  • Dentro del método parse, crea una variable author_names, que es una lista de cadenas creada extrayendo el texto de los elementos de párrafo pertenecientes a la clase course-block__author-name.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Editar y ejecutar código