Exploiter l’unicité des IDs

Comme vous le savez, les IDs doivent être uniques sur une page web. Si vous pouvez vous en assurer, cela peut réduire drastiquement la complexité de vos sélecteurs de scraping.

Voici la structure d’une page HTML que vous pourriez rencontrer :

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Elle a été lue pour vous avec read_html() et est disponible via structured_html.

Cet exercice fait partie du cours

<cours>Web scraping en R</cours>

Voir le cours

Instructions de l’exercice

En utilisant html_elements(), trouvez le sélecteur le plus court possible pour sélectionner le premier div dans structured_html.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Select the first div
structured_html %>%
  ___

Modifier et exécuter le code