CommencerCommencer gratuitement

Appliquer un throttling à un crawler multi‑pages

L’objectif de cet exercice est de récupérer les coordonnées des trois plus hauts sommets du monde, ainsi que leurs noms.

Vous obtiendrez ces informations en temps réel à partir de leurs pages Wikipedia correspondantes. Pour ménager Wikipedia, vous appliquerez un throttling avec la fonction slowly(). Après chaque appel à une page Wikipedia, votre programme doit attendre un court instant. Trois pages, ce n’est pas énorme, mais le principe vaut pour tout volume de scraping : soyez respectueux et ajoutez un temps d’attente entre les requêtes.

Vous trouverez le nom du sommet dans un élément avec l’ID "firstHeading", tandis que les coordonnées se trouvent dans un élément avec la classe "geo-dms", qui est un descendant d’un élément avec l’ID "coordinates".

purrr a été préchargé et les URL sont contenues dans mountain_wiki_pages.

Cet exercice fait partie du cours

Web scraping en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Define a throttled read_html() function with a delay of 0.5s
read_html_delayed <- ___(___, 
                         rate = ___(___))
Modifier et exécuter le code