1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping với Python

Connected

Bài tập

Đến giờ thu thập dữ liệu

Đây là lần đầu bạn được thực hành với một spider có thể bò qua nhiều trang (bằng cách thu thập liên kết từ một trang, rồi theo các liên kết đó để phân tích các trang mới). Spider này bắt đầu từ danh mục khóa học rút gọn của DataCamp, sau đó trích các liên kết của các khóa học trong phương thức parse; từ đó, nó sẽ theo các liên kết này để trích mô tả khóa học từ từng trang khóa học trong phương thức parse_descr, và đưa các mô tả này vào danh sách course_descrs. Nhiệm vụ của bạn là hoàn thiện mã để spider chạy đúng như mong muốn!

Chúng tôi đã tạo hàm inspect_spider để in ra một trong các mô tả khóa học mà bạn thu thập được (nếu làm đúng)!

Hướng dẫn

100 XP
  • Điền hai chỗ trống bên dưới (mỗi chỗ trong một phương thức phân tích) với tham số phù hợp để spider có thể chuyển từ phương thức phân tích đầu tiên sang phương thức thứ hai một cách chính xác.