1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping với Python

Connected

Bài tập

Bắt đầu với Start Requests

Trong bài trước, bạn đã học cách thiết lập phương thức start_requests trong một spider của scrapy. Dưới đây là một spider mô phỏng đơn giản, thực tế không thu thập dữ liệu nào, nhưng giúp bạn thực hành với phương thức start_requests. Mục tiêu là để bạn bắt đầu quen với các đối số truyền vào lệnh gọi scrapy.Request bên trong start_requests.

Như trước, chúng tôi đã tạo sẵn hàm inspect_class để kiểm tra những gì bạn đang yield trong start_requests.

Hướng dẫn

100 XP
  • Điền đối tượng scrapy cần thiết vào lớp YourSpider để tạo spider scrapy.
  • Điền phần còn thiếu trong lệnh scrapy.Request được yield trong phương thức start_requests sao cho URL mà spider này sẽ bắt đầu thu thập là "https://www.datacamp.com" và sử dụng phương thức parse (thuộc lớp YourSpider) làm phương thức để phân tích trang web.