1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping bằng R

Connected

Bài tập

Tận dụng tính duy nhất của ID

Như bạn biết, ID nên là duy nhất trên một trang web. Nếu bạn đảm bảo được điều này, độ phức tạp của các bộ chọn dùng để trích xuất dữ liệu sẽ giảm đi đáng kể.

Dưới đây là cấu trúc của một trang HTML bạn có thể gặp ngoài thực tế:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Nội dung này đã được đọc vào bằng read_html() và có sẵn trong structured_html.

Hướng dẫn

100 XP
  • Dùng html_elements() để tìm bộ chọn ngắn nhất có thể nhằm chọn div đầu tiên trong structured_html.