ComenzarEmpieza gratis

Crawling de Capstone

¡Este ejercicio te da la oportunidad de demostrar lo que has aprendido! En este ejercicio, escribirás la función de análisis sintáctico de una araña y luego rellenarás algunos espacios en blanco para terminar la araña. En la página del directorio de cursos de DataCamp, cada curso tiene un título y una breve descripción. Esta araña se utilizará para rastrear el directorio de cursos y extraer los títulos de los cursos y las breves descripciones de los mismos. Esta vez no tendrás que seguir ningún enlace. Todo lo que necesitas saber es:

  • Los títulos de los cursos están definidos por el texto dentro de un elemento h4 cuya clase contiene la cadena block__title (doble subrayado).
  • Las descripciones breves de los cursos están definidas por el texto dentro de un elemento de párrafo p cuya clase contiene la cadena block__description (doble subrayado).

Este ejercicio forma parte del curso

Web scraping en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# parse method
def parse(self, response):
  # Extracted course titles
  crs_titles = response.xpath(____).extract()
  # Extracted course descriptions
  crs_descrs = response.xpath(____).extract()
  # Fill in the dictionary: it is the spider output
  for crs_title, crs_descr in zip(crs_titles, crs_descrs):
    dc_dict[crs_title] = crs_descr
Editar y ejecutar código