1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping bằng R

Connected

Bài tập

Chọn theo class và ID với XPATH

Đây là một đoạn mã HTML tương tự với mã bạn đã gặp ở chương trước (đã được đọc vào tài liệu HTML tên là weather_html):

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Berlin Weather Station</h1>
      <p class = 'first'>Temperature: 20°C</p>
      <p class = 'second'>Humidity: 45%</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <p class = 'first'>Sunshine: 5hrs</p>
      <p class = 'second'>Precipitation: 0mm</p>
    </div>
  </body>
</html>

Trong chương này, đoạn mã sẽ giống với thực tế hơn. Mục tiêu của bạn là trích xuất giá trị lượng mưa (precipitation) từ trạm thời tiết này. Rất tiếc là không thể tham chiếu trực tiếp thông qua một ID.

Hãy thực hiện bằng cách xây dựng từng bước các khối cơ bản rồi kết hợp chúng lại!

Hướng dẫn 1/4

undefined XP
  • 1
    • Khởi động bằng cách chọn tất cả thẻ p trong HTML ở trên bằng XPATH.
  • 2
    • Bây giờ chỉ chọn các phần tử p có class second.
  • 3
    • Tiếp theo, chọn tất cả phần tử p là con của phần tử có ID third.
  • 4
    • Cuối cùng, chỉ chọn phần tử p có class second là con trực tiếp của #third, tiếp tục dùng XPATH.