Beperkingssnelheid toepassen op een crawler met meerdere pagina's
Het doel van deze oefening is om de coördinaten van de drie hoogste bergtoppen op aarde op te halen, samen met hun namen.
Je haalt deze info in real-time van de bijbehorende Wikipedia-pagina's. Om Wikipedia niet onnodig te belasten, pas je throttling toe met de functie slowly(). Na elke call naar een Wikipedia-pagina laat je je programma even wachten. Drie Wikipedia-pagina's is misschien niet veel, maar het principe geldt voor elke hoeveelheid scraping: wees netjes en voeg wachttijd toe tussen verzoeken.
Je vindt de naam van de top in een element met ID "firstHeading", terwijl de coördinaten staan in een element met class "geo-dms", dat een afstammeling is van een element met ID "coordinates".
purrr is al geladen en de URL's staan in mountain_wiki_pages.
Deze oefening maakt deel uit van de cursus
Webscraping in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Define a throttled read_html() function with a delay of 0.5s
read_html_delayed <- ___(___,
rate = ___(___))