MulaiMulai sekarang secara gratis

Terapkan throttling pada perayap multi-halaman

Tujuan latihan ini adalah untuk mendapatkan koordinat dari tiga puncak gunung tertinggi di bumi, beserta namanya.

Anda akan mengambil informasi ini dari halaman Wikipedia masing-masing, secara real-time. Agar tidak membebani Wikipedia, Anda akan menerapkan throttling dengan fungsi slowly(). Setelah setiap pemanggilan ke halaman Wikipedia, program Anda harus menunggu sejenak. Tiga halaman Wikipedia mungkin tidak banyak, tetapi prinsipnya berlaku untuk semua kegiatan scraping: bersikaplah santun dan tambahkan waktu tunggu antar-permintaan.

Anda akan menemukan nama puncak di dalam elemen dengan ID "firstHeading", sedangkan koordinat berada di dalam elemen dengan class "geo-dms", yang merupakan turunan dari elemen dengan ID "coordinates".

purrr sudah dimuat sebelumnya dan URL disimpan dalam mountain_wiki_pages.

Latihan ini adalah bagian dari kursus

Web Scraping di R

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Define a throttled read_html() function with a delay of 0.5s
read_html_delayed <- ___(___, 
                         rate = ___(___))
Edit dan Jalankan Kode