Nomes literários
Neste exercício, configuramos uma classe spider que, quando concluída, recupera os nomes dos autores de uma versão reduzida do diretório de cursos DataCamp. A URL da versão reduzida está armazenada na variável url_short. Seu trabalho é criar a lista de nomes de autores extraídos no método parse do spider.
Duas coisas que você deve saber:
- Você deve usar o objeto
responsee o métodocss. - Os nomes dos autores dos cursos são definidos pelo texto dos elementos de parágrafo
ppertencentes à classecourse-block__author-name
Você pode inspecionar o spider usando a função inspect_spider() que criamos para você – ela imprime os nomes dos autores que você encontrar!
Observe que este e os demais exercícios deste capítulo podem levar algum tempo para serem carregados.
Este exercício faz parte do curso
Raspagem da Web em Python
Instruções do exercício
- Preencha os argumentos necessários para o método parse para que ele funcione conforme necessário quando for chamado no método
start_requests. - No método
parse, crie uma variável chamadaauthor_names, que consiste em uma lista de strings criada pela extração do texto dos elementos de parágrafo pertencentes à classecourse-block__author-name.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the scrapy library
import scrapy
# Create the Spider class
class DCspider( scrapy.Spider ):
name = 'dcspider'
# start_requests method
def start_requests( self ):
yield scrapy.Request( url = url_short, callback = self.parse )
# parse method
def parse( ____ ):
# Create an extracted list of course author names
____
# Here we will just return the list of Authors
return author_names
# Inspect the spider
inspect_spider( DCspider )