Sélectionner par classe et ID avec XPATH
Voici un extrait HTML similaire à celui rencontré au chapitre précédent (déjà chargé dans un document HTML appelé weather_html) :
<html>
<body>
<div id = 'first'>
<h1 class = 'big'>Berlin Weather Station</h1>
<p class = 'first'>Temperature: 20°C</p>
<p class = 'second'>Humidity: 45%</p>
</div>
<div id = 'second'>...</div>
<div id = 'third'>
<p class = 'first'>Sunshine: 5hrs</p>
<p class = 'second'>Precipitation: 0mm</p>
</div>
</body>
</html>
Dans ce chapitre, le code se rapproche un peu plus d’un cas réel. Votre objectif est d’extraire la mesure des précipitations de cette station météo. Malheureusement, elle ne peut pas être référencée directement via un ID.
Procédons pas à pas en mettant en place les briques de base, puis en les combinant !
Cet exercice fait partie du cours
Web scraping en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Select all p elements
weather_html %>%
html_elements(xpath = '___')