1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping bằng R

Connected

Bài tập

Chọn phần tử con cuối cùng bằng pseudo-class

Trong HTML dưới đây, phần tác giả của văn bản nằm ở đoạn văn cuối cùng, và có hai nhóm nút p:

<html>
  <body>
    <div>
      <p class = 'text'>A sophisticated text [...]</p>
      <p class = 'text'>Another paragraph following [...]</p>
      <p class = 'text'>Author: T.G.</p>
    </div>
    <p>Copyright: DC</p>
  </body>
</html>

Trong bài này, nhiệm vụ của bạn là chọn nút p cuối cùng bên trong div.

Như bạn đã học trong video, các pseudo-class có thể giúp bạn khi không có cách nào khác để chọn một nút cụ thể trên trang, ví dụ qua bộ chọn ID hoặc một class duy nhất.

Tài liệu HTML ở trên đã được cung cấp cho bạn thông qua biến nested_html (đã được đọc bằng read_html()).

Hướng dẫn 1/2

undefined XP
  • 1
    • Ở bước đầu, hãy dùng pseudo-class chọn phần tử con cuối cùng để trích xuất p cuối trong mỗi nhóm.
  • 2
    • Vì bước trên chọn nút p cuối từ cả hai nhóm, hãy dùng thêm class text để chỉ lấy thông tin tác giả.