1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping bằng R

Connected

Bài tập

Làm quen với hàm position()

Như bạn đã thấy trong video, hàm position() rất mạnh khi dùng trong một mệnh đề chọn (predicate). Kết hợp với các toán tử, bạn có thể chọn hầu như bất kỳ nút nào trong số các nút khớp với một đường dẫn nhất định.

Bạn sẽ thử với đoạn HTML sau, có sẵn qua rules_html. Giả sử đây là một trang web được cập nhật liên tục, hiển thị một số quy định về Coronavirus cho ngày hôm nay và ngày mai.

...
<div>
  <h2>Today's rules</h2>
  <p>Wear a mask</p>
  <p>Wash your hands</p>
</div>
<div>
  <h2>Tomorrow's rules</h2>
  <p>Wear a mask</p>
  <p>Wash your hands</p>
  <small>Bring hand sanitizer with you</small>
</div>
...

Hướng dẫn 1/3

undefined XP
  • 1
    • Trước tiên, trích xuất văn bản của p thứ hai trong mỗi div bằng XPATH.
  • 2
    • Bây giờ hãy trích xuất văn bản của mọi p (trừ phần tử thứ hai) trong mỗi div.
  • 3
    • Trích xuất văn bản của ba phần tử con cuối cùng của div thứ hai.
    • Dùng toán tử >= để chọn các nút con này.