ComeçarComece de graça

Nomes literários

Neste exercício, configuramos uma classe spider que, quando concluída, recupera os nomes dos autores de uma versão reduzida do diretório de cursos DataCamp. A URL da versão reduzida está armazenada na variável url_short. Seu trabalho é criar a lista de nomes de autores extraídos no método parse do spider.

Duas coisas que você deve saber:

  • Você deve usar o objeto response e o método css.
  • Os nomes dos autores dos cursos são definidos pelo texto dos elementos de parágrafo p pertencentes à classe course-block__author-name

Você pode inspecionar o spider usando a função inspect_spider() que criamos para você – ela imprime os nomes dos autores que você encontrar!

Observe que este e os demais exercícios deste capítulo podem levar algum tempo para serem carregados.

Este exercício faz parte do curso

Raspagem da Web em Python

Ver curso

Instruções do exercício

  • Preencha os argumentos necessários para o método parse para que ele funcione conforme necessário quando for chamado no método start_requests.
  • No método parse, crie uma variável chamada author_names, que consiste em uma lista de strings criada pela extração do texto dos elementos de parágrafo pertencentes à classe course-block__author-name.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Editar e executar o código