1. Learn
  2. /
  3. Courses
  4. /
  5. Web Scraping với Python

Connected

Exercise

Trình thu thập dữ liệu tổng kết

Bài tập này là cơ hội để bạn thể hiện những gì mình đã học! Trong bài này, bạn sẽ viết hàm parse cho một spider rồi điền vài chỗ trống để hoàn thiện spider. Trên trang danh mục khóa học của DataCamp, mỗi khóa học được liệt kê có tiêu đề và mô tả ngắn. Spider này sẽ dùng để thu thập dữ liệu từ trang danh mục, trích xuất tiêu đề khóa học và phần mô tả ngắn. Lần này bạn không cần theo bất kỳ liên kết nào. Những gì bạn cần biết là:

  • Tiêu đề khóa học nằm trong văn bản của phần tử h4 có class chứa chuỗi block__title (gạch dưới kép).
  • Mô tả ngắn của khóa học nằm trong văn bản của phần tử đoạn văn p có class chứa chuỗi block__description (gạch dưới kép).

Instructions 1/2

undefined XP
    1
    2
  • Gán cho biến crs_titles danh sách tiêu đề khóa học được trích xuất trên trang danh mục khóa học của DataCamp. Bạn nên dùng lời gọi contains trong XPath, và chuỗi XPath của bạn phải trỏ tới phần văn bản của các đối tượng được chọn.
  • Gán cho biến crs_descrs danh sách mô tả ngắn được trích xuất. Bạn nên dùng lời gọi contains trong XPath. Bạn nên dùng lời gọi contains trong XPath, và chuỗi XPath của bạn phải trỏ tới phần văn bản của các đối tượng được chọn.

(Vì chúng ta muốn một danh sách dữ liệu đã trích xuất, hãy dùng lời gọi extract() (thay vì extract_first()). )