Aan de slagGa gratis aan de slag

Profiteer van de uniciteit van ID's

Zoals je weet, moeten ID's uniek zijn op een webpagina. Als je zeker weet dat dat zo is, kun je de complexiteit van je scraping-selectors flink verminderen.

Hier is de structuur van een HTML-pagina die je in het wild kunt tegenkomen:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Deze is voor je ingelezen met read_html() en beschikbaar als structured_html.

Deze oefening maakt deel uit van de cursus

Webscraping in R

Cursus bekijken

Oefeninstructies

  • Gebruik html_elements() en vind de kortst mogelijke selector om de eerste div in structured_html te selecteren.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Select the first div
structured_html %>%
  ___
Code bewerken en uitvoeren