1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping với Python

Connected

Bài tập

Văn bản mọi cấp

Bài tập này tương tự bài trước, nhưng khác ở chỗ bạn sẽ chọn văn bản từ nhiều thế hệ con của một phần tử nhất định.

Bạn sẽ viết các chuỗi XPath và CSS Locator để trỏ tới văn bản của một phần tử đoạn p cụ thể. Phần tử p trong HTML được xác định duy nhất bằng thuộc tính id, là "p3". Với mẩu thông tin nhỏ này, bạn có thể tạo ra các chuỗi cần thiết; tuy nhiên, chúng tôi đã nạp sẵn biến html với một chuỗi chứa HTML nơi liên kết này thuộc về, nếu bạn muốn xem qua.

Trong bài này, bạn chỉ chọn văn bản bên trong phần tử, bao gồm toàn bộ văn bản trong các thế hệ con về sau. Chúng tôi đã tạo sẵn hàm print_results để bạn so sánh xem các chuỗi của mình đang trỏ tới những phần tử nào.

Hướng dẫn

100 XP
  • Gán cho biến xpath một chuỗi XPath trỏ tới văn bản bên trong phần tử đoạn p có id bằng p3, trong đó bao gồm cả văn bản của các thế hệ con về sau của phần tử p này.
  • Gán cho biến css_locator một chuỗi CSS Locator trỏ tới chính văn bản đó.