1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Web Scraping bằng R

Connected

Exercises

Làm theo cách của httr

Đây là một đoạn mã rvest mình dùng để tìm độ cao của một nơi tuyệt đẹp mà mình vừa nghỉ dưỡng gần đây.

# Lấy tài liệu HTML từ Wikipedia
wikipedia_page <- read_html('https://en.wikipedia.org/wiki/Varigotti')
# Phân tích tài liệu và trích xuất độ cao từ đó
wikipedia_page %>% 
  html_elements('table tr:nth-child(9) > td') %>% 
  html_text()

Như bạn đã học trong video, read_html() thực chất sẽ gửi một yêu cầu HTTP GET nếu bạn truyền vào một URL, như ví dụ trên.

Mục tiêu của bài tập này là lặp lại cùng truy vấn nhưng không dùng read_html(), mà dùng các hàm của httr.

Lưu ý: Thông thường rvest là đủ, nhưng nếu bạn muốn tùy chỉnh request như bạn sẽ thấy ở phần sau của chương này, bạn sẽ cần biết cách làm với httr.

Để ôn tập nhẹ, bạn cũng sẽ chuyển bộ chọn CSS dùng trong html_elements() sang một truy vấn XPATH.

คำแนะนำ 1 / 2

undefined XP
    1
    2
  • Chỉ dùng các hàm của httr để tái hiện hành vi của read_html(), gồm việc lấy phản hồi từ Wikipedia và phân tích đối tượng phản hồi thành một tài liệu HTML.
  • Kiểm tra mã trạng thái HTTP nhận được bằng hàm httr phù hợp.