Nomes literários
Neste exercício, configuramos uma classe spider que, quando concluída, recupera os nomes dos autores de uma versão reduzida do diretório de cursos DataCamp. A URL da versão reduzida está armazenada na variável url_short
. Seu trabalho é criar a lista de nomes de autores extraídos no método parse
do spider.
Duas coisas que você deve saber:
- Você deve usar o objeto
response
e o métodocss
. - Os nomes dos autores dos cursos são definidos pelo texto dos elementos de parágrafo
p
pertencentes à classecourse-block__author-name
Você pode inspecionar o spider usando a função inspect_spider()
que criamos para você – ela imprime os nomes dos autores que você encontrar!
Observe que este e os demais exercícios deste capítulo podem levar algum tempo para serem carregados.
Este exercício faz parte do curso
Raspagem da Web em Python
Instruções do exercício
- Preencha os argumentos necessários para o método parse para que ele funcione conforme necessário quando for chamado no método
start_requests
. - No método
parse
, crie uma variável chamadaauthor_names
, que consiste em uma lista de strings criada pela extração do texto dos elementos de parágrafo pertencentes à classecourse-block__author-name
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the scrapy library
import scrapy
# Create the Spider class
class DCspider( scrapy.Spider ):
name = 'dcspider'
# start_requests method
def start_requests( self ):
yield scrapy.Request( url = url_short, callback = self.parse )
# parse method
def parse( ____ ):
# Create an extracted list of course author names
____
# Here we will just return the list of Authors
return author_names
# Inspect the spider
inspect_spider( DCspider )