Aprovecha la unicidad de los IDs
Como sabes, los IDs deben ser únicos en una página web. Si puedes asegurarte de que así sea, la complejidad de tus selectores de scraping se reduce drásticamente.
Aquí tienes la estructura de una página HTML que podrías encontrarte:
<html>
<body>
<div id = 'first'>
<h1 class = 'big'>Joe Biden</h1>
<p class = 'first blue'>Democrat</p>
<p class = 'second blue'>Male</p>
</div>
<div id = 'second'>...</div>
<div id = 'third'>
<h1 class = 'big'>Donald Trump</h1>
<p class = 'first red'>Republican</p>
<p class = 'second red'>Male</p>
</div>
</body>
</html>
Ya se ha leído con read_html() y está disponible como structured_html.
Este ejercicio forma parte del curso
Web Scraping con R
Instrucciones del ejercicio
- Usando
html_elements(), encuentra el selector más corto posible para seleccionar el primerdivenstructured_html.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Select the first div
structured_html %>%
___