1. Learn
  2. /
  3. 课程
  4. /
  5. Python Web 爬取

Connected

道练习

综合爬虫练习

这个练习让您展示所学内容!您将为一个 spider 编写 parse 函数,然后补全几个空白以完成这个 spider。在 DataCamp 的课程目录页,每门课程都有一个标题和简短的课程描述。该 spider 将抓取课程目录,提取课程标题和简短描述。本次不需要跟随任何链接。您只需要了解以下信息:

  • 课程标题位于 h4 元素中,其 class 属性包含字符串 block__title(双下划线)。
  • 简短课程描述位于段落 p 元素中,其 class 属性包含字符串 block__description(双下划线)。

说明 1 / 共 2 个

undefined XP
    1
    2
  • 将 DataCamp 课程目录页中提取到的课程标题列表赋给变量 crs_titles。请在 XPath 中使用 contains,并让 XPath 字符串直接指向所选对象的文本。
  • 将提取到的简短课程描述列表赋给变量 crs_descrs。请在 XPath 中使用 contains,并让 XPath 字符串直接指向所选对象的文本。

(因为我们需要提取到的数据是一个列表,请使用 extract()(而非 extract_first())。)