Applica il throttling a un crawler multi-pagina

L'obiettivo di questo esercizio è ottenere le coordinate delle tre vette montuose più alte della Terra, insieme ai loro nomi.

Otterrai queste informazioni dalle rispettive pagine Wikipedia, in tempo reale. Per non sovraccaricare Wikipedia, applicherai il throttling usando la funzione slowly(). Dopo ogni chiamata a una pagina di Wikipedia, il tuo programma dovrebbe attendere un breve intervallo. Tre pagine potrebbero non essere molte, ma il principio vale per qualsiasi quantità di scraping: sii gentile e aggiungi un tempo di attesa tra le richieste.

Troverai il nome della vetta in un elemento con ID "firstHeading", mentre le coordinate si trovano in un elemento con classe "geo-dms", che è un discendente di un elemento con ID "coordinates".

purrr è già caricato e gli URL sono contenuti in mountain_wiki_pages.

Questo esercizio fa parte del corso

Web scraping in R

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Define a throttled read_html() function with a delay of 0.5s
read_html_delayed <- ___(___, 
                         rate = ___(___))

Modifica ed esegui il codice