Crawling de Capstone
¡Este ejercicio te da la oportunidad de demostrar lo que has aprendido! En este ejercicio, escribirás la función de análisis sintáctico de una araña y luego rellenarás algunos espacios en blanco para terminar la araña. En la página del directorio de cursos de DataCamp, cada curso tiene un título y una breve descripción. Esta araña se utilizará para rastrear el directorio de cursos y extraer los títulos de los cursos y las breves descripciones de los mismos. Esta vez no tendrás que seguir ningún enlace. Todo lo que necesitas saber es:
- Los títulos de los cursos están definidos por el texto dentro de un elemento
h4
cuya clase contiene la cadenablock__title
(doble subrayado). - Las descripciones breves de los cursos están definidas por el texto dentro de un elemento de párrafo
p
cuya clase contiene la cadenablock__description
(doble subrayado).
Este ejercicio forma parte del curso
Web scraping en Python
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# parse method
def parse(self, response):
# Extracted course titles
crs_titles = response.xpath(____).extract()
# Extracted course descriptions
crs_descrs = response.xpath(____).extract()
# Fill in the dictionary: it is the spider output
for crs_title, crs_descr in zip(crs_titles, crs_descrs):
dc_dict[crs_title] = crs_descr