CommencerCommencer gratuitement

Faites-le à la manière de httr

Voici du code rvest que j’ai utilisé pour trouver l’altitude d’un magnifique endroit où j’ai passé mes vacances récemment.

# Récupérer le document HTML depuis Wikipedia
wikipedia_page <- read_html('https://en.wikipedia.org/wiki/Varigotti')
# Analyser le document et en extraire l’altitude
wikipedia_page %>% 
  html_elements('table tr:nth-child(9) > td') %>% 
  html_text()

Comme vous l’avez vu dans la vidéo, read_html() envoie en réalité une requête HTTP GET lorsqu’on lui passe une URL, comme ici.

L’objectif de cet exercice est de reproduire la même requête sans read_html(), mais en utilisant cette fois les fonctions de httr.

Remarque : en général, rvest suffit, mais si vous souhaitez personnaliser vos requêtes comme vous le verrez plus loin dans ce chapitre, vous devrez connaître l’approche httr.

Pour réviser, vous allez aussi traduire le sélecteur CSS utilisé dans html_elements() en une requête XPATH.

Cet exercice fait partie du cours

Web scraping en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Get the HTML document from Wikipedia using httr
wikipedia_response <- ___('https://en.wikipedia.org/wiki/Varigotti')
# Parse the response into an HTML doc
wikipedia_page <- ___(___)
Modifier et exécuter le code