Crawler de conclusão
Esse exercício lhe dá a chance de mostrar o que você aprendeu! Neste exercício, você deve escrever a função de análise de um spider e, em seguida, preencher alguns espaços em branco para finalizar o spider. Na página do diretório de cursos do DataCamp, cada curso listado tem um título e uma breve descrição do curso. Esse spider deve ser usado para fazer a raspagem do diretório de cursos a fim de extrair os títulos e as descrições resumidas dos cursos. Desta vez, você não precisa seguir nenhum link. Tudo o que você precisa saber é:
- Os títulos dos cursos são definidos pelo texto em um elemento
h4
cuja classe contém a stringblock__title
(com dois sublinhados). - As descrições de cursos curtos são definidas pelo texto em um elemento de parágrafo
p
cuja classe contém a stringblock__description
(com dois sublinhados).
Este exercício faz parte do curso
Raspagem da Web em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# parse method
def parse(self, response):
# Extracted course titles
crs_titles = response.xpath(____).extract()
# Extracted course descriptions
crs_descrs = response.xpath(____).extract()
# Fill in the dictionary: it is the spider output
for crs_title, crs_descr in zip(crs_titles, crs_descrs):
dc_dict[crs_title] = crs_descr