1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping bằng R

Connected

Bài tập

Áp dụng throttling cho trình thu thập nhiều trang

Mục tiêu của bài tập này là lấy tọa độ của ba đỉnh núi cao nhất thế giới, kèm theo tên của chúng.

Bạn sẽ lấy thông tin này trực tiếp từ các trang Wikipedia tương ứng. Để tránh gây tải nặng lên Wikipedia, bạn sẽ áp dụng throttling bằng hàm slowly(). Sau mỗi lần gọi tới một trang Wikipedia, chương trình của bạn sẽ chờ một khoảng thời gian ngắn. Ba trang Wikipedia có thể không nhiều, nhưng nguyên tắc này áp dụng cho mọi quy mô scraping: hãy nhẹ nhàng và thêm thời gian chờ giữa các yêu cầu.

Bạn sẽ tìm thấy tên đỉnh núi trong phần tử có ID "firstHeading", còn tọa độ nằm trong phần tử có class "geo-dms", là phần tử con (descendant) của phần tử có ID "coordinates".

purrr đã được nạp sẵn và các URL được chứa trong mountain_wiki_pages.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Tạo một hàm read_html() chạy với độ trễ nửa giây khi được thực thi trong vòng lặp.