Exploiter l’unicité des IDs
Comme vous le savez, les IDs doivent être uniques sur une page web. Si vous pouvez vous en assurer, cela peut réduire drastiquement la complexité de vos sélecteurs de scraping.
Voici la structure d’une page HTML que vous pourriez rencontrer :
<html>
<body>
<div id = 'first'>
<h1 class = 'big'>Joe Biden</h1>
<p class = 'first blue'>Democrat</p>
<p class = 'second blue'>Male</p>
</div>
<div id = 'second'>...</div>
<div id = 'third'>
<h1 class = 'big'>Donald Trump</h1>
<p class = 'first red'>Republican</p>
<p class = 'second red'>Male</p>
</div>
</body>
</html>
Elle a été lue pour vous avec read_html() et est disponible via structured_html.
Cet exercice fait partie du cours
Web scraping en R
Instructions
- En utilisant
html_elements(), trouvez le sélecteur le plus court possible pour sélectionner le premierdivdansstructured_html.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Select the first div
structured_html %>%
___