Profiteer van de uniciteit van ID's

Zoals je weet, moeten ID's uniek zijn op een webpagina. Als je zeker weet dat dat zo is, kun je de complexiteit van je scraping-selectors flink verminderen.

Hier is de structuur van een HTML-pagina die je in het wild kunt tegenkomen:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Deze is voor je ingelezen met read_html() en beschikbaar als structured_html.

Deze oefening maakt deel uit van de cursus

Webscraping in R

Bekijk cursus

Oefeninstructies

Gebruik html_elements() en vind de kortst mogelijke selector om de eerste div in structured_html te selecteren.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Select the first div
structured_html %>%
  ___

Code bewerken en uitvoeren