ComeçarComece gratuitamente

Crawler de conclusão

Esse exercício lhe dá a chance de mostrar o que você aprendeu! Neste exercício, você deve escrever a função de análise de um spider e, em seguida, preencher alguns espaços em branco para finalizar o spider. Na página do diretório de cursos do DataCamp, cada curso listado tem um título e uma breve descrição do curso. Esse spider deve ser usado para fazer a raspagem do diretório de cursos a fim de extrair os títulos e as descrições resumidas dos cursos. Desta vez, você não precisa seguir nenhum link. Tudo o que você precisa saber é:

  • Os títulos dos cursos são definidos pelo texto em um elemento h4 cuja classe contém a string block__title (com dois sublinhados).
  • As descrições de cursos curtos são definidas pelo texto em um elemento de parágrafo p cuja classe contém a string block__description (com dois sublinhados).

Este exercício faz parte do curso

Raspagem da Web em Python

Ver Curso

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# parse method
def parse(self, response):
  # Extracted course titles
  crs_titles = response.xpath(____).extract()
  # Extracted course descriptions
  crs_descrs = response.xpath(____).extract()
  # Fill in the dictionary: it is the spider output
  for crs_title, crs_descr in zip(crs_titles, crs_descrs):
    dc_dict[crs_title] = crs_descr
Editar e executar código