CommencerCommencer gratuitement

Sélectionner par classe et ID avec XPATH

Voici un extrait HTML similaire à celui rencontré au chapitre précédent (déjà chargé dans un document HTML appelé weather_html) :

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Berlin Weather Station</h1>
      <p class = 'first'>Temperature: 20°C</p>
      <p class = 'second'>Humidity: 45%</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <p class = 'first'>Sunshine: 5hrs</p>
      <p class = 'second'>Precipitation: 0mm</p>
    </div>
  </body>
</html>

Dans ce chapitre, le code se rapproche un peu plus d’un cas réel. Votre objectif est d’extraire la mesure des précipitations de cette station météo. Malheureusement, elle ne peut pas être référencée directement via un ID.

Procédons pas à pas en mettant en place les briques de base, puis en les combinant !

Cet exercice fait partie du cours

Web scraping en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Select all p elements
weather_html %>%
	html_elements(xpath = '___')
Modifier et exécuter le code