CommencerCommencer gratuitement

Exploiter l’unicité des IDs

Comme vous le savez, les IDs doivent être uniques sur une page web. Si vous pouvez vous en assurer, cela peut réduire drastiquement la complexité de vos sélecteurs de scraping.

Voici la structure d’une page HTML que vous pourriez rencontrer :

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Elle a été lue pour vous avec read_html() et est disponible via structured_html.

Cet exercice fait partie du cours

Web scraping en R

Afficher le cours

Instructions

  • En utilisant html_elements(), trouvez le sélecteur le plus court possible pour sélectionner le premier div dans structured_html.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Select the first div
structured_html %>%
  ___
Modifier et exécuter le code