Profiteer van de uniciteit van ID's
Zoals je weet, moeten ID's uniek zijn op een webpagina. Als je zeker weet dat dat zo is, kun je de complexiteit van je scraping-selectors flink verminderen.
Hier is de structuur van een HTML-pagina die je in het wild kunt tegenkomen:
<html>
<body>
<div id = 'first'>
<h1 class = 'big'>Joe Biden</h1>
<p class = 'first blue'>Democrat</p>
<p class = 'second blue'>Male</p>
</div>
<div id = 'second'>...</div>
<div id = 'third'>
<h1 class = 'big'>Donald Trump</h1>
<p class = 'first red'>Republican</p>
<p class = 'second red'>Male</p>
</div>
</body>
</html>
Deze is voor je ingelezen met read_html() en beschikbaar als structured_html.
Deze oefening maakt deel uit van de cursus
Webscraping in R
Oefeninstructies
- Gebruik
html_elements()en vind de kortst mogelijke selector om de eerstedivinstructured_htmlte selecteren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Select the first div
structured_html %>%
___