1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping với Python

Connected

Bài tập

Bút danh

Trong bài tập này, chúng tôi đã thiết lập một lớp spider mà khi hoàn thiện sẽ lấy tên tác giả từ phiên bản rút gọn của thư mục khóa học DataCamp. URL của phiên bản rút gọn được lưu trong biến url_short. Nhiệm vụ của bạn là tạo danh sách tên tác giả đã trích xuất trong phương thức parse của spider.

Có hai điều bạn cần biết:

  • Bạn sẽ dùng đối tượng response và phương thức css ở đây.
  • Tên tác giả khóa học được xác định bởi phần văn bản bên trong các phần tử đoạn văn p thuộc class course-block__author-name

Bạn có thể kiểm tra spider bằng hàm inspect_spider() mà chúng tôi đã xây dựng sẵn — hàm này sẽ in ra các tên tác giả bạn tìm được!

Lưu ý rằng bài này và các bài tập còn lại trong chương có thể mất một chút thời gian để tải.

Hướng dẫn

100 XP
  • Điền các đối số cần thiết cho phương thức parse để nó hoạt động đúng khi được gọi trong phương thức start_requests.
  • Bên trong phương thức parse, tạo biến author_names, là một danh sách chuỗi được tạo bằng cách trích xuất văn bản từ các phần tử đoạn văn thuộc class course-block__author-name.