Nomes literários

Neste exercício, configuramos uma classe spider que, quando concluída, recupera os nomes dos autores de uma versão reduzida do diretório de cursos DataCamp. A URL da versão reduzida está armazenada na variável url_short. Seu trabalho é criar a lista de nomes de autores extraídos no método parse do spider.

Duas coisas que você deve saber:

Você deve usar o objeto response e o método css.
Os nomes dos autores dos cursos são definidos pelo texto dos elementos de parágrafo p pertencentes à classe course-block__author-name

Você pode inspecionar o spider usando a função inspect_spider() que criamos para você – ela imprime os nomes dos autores que você encontrar!

Observe que este e os demais exercícios deste capítulo podem levar algum tempo para serem carregados.

Este exercicio faz parte do curso

Raspagem da Web em Python

Ver curso

Instruções do exercicio

Preencha os argumentos necessários para o método parse para que ele funcione conforme necessário quando for chamado no método start_requests.
No método parse, crie uma variável chamada author_names, que consiste em uma lista de strings criada pela extração do texto dos elementos de parágrafo pertencentes à classe course-block__author-name.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )

Editar e Executar Código