1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Python Web 爬取

Connected

Bài tập

笔名

在本练习中,我们已经为您搭建好了一个 spider 类。完成后,它会从精简版的 DataCamp 课程目录中抓取作者姓名。精简版的 URL 已保存在变量 url_short 中。您的任务是在 spider 的 parse 方法中创建提取出的作者姓名列表。

有两点需要知道:

  • 您将使用 response 对象及其 css 方法。
  • 课程作者姓名由属于类 course-block__author-name 的段落元素 p 中的文本定义。

您可以使用我们为您构建的函数 inspect_spider() 来检查该 spider——它会打印出您找到的作者姓名!

请注意:本章此题及后续练习可能需要一些时间加载。

Hướng dẫn

100 XP
  • 在 parse 方法中补全所需参数,使其在 start_requests 方法调用时按要求工作。
  • 在 parse 方法内,创建变量 author_names。它应是一个字符串列表,由从属于类 course-block__author-name 的段落元素中提取文本得到。