ComenzarEmpieza gratis

Aprovecha la unicidad de los IDs

Como sabes, los IDs deben ser únicos en una página web. Si puedes asegurarte de que así sea, la complejidad de tus selectores de scraping se reduce drásticamente.

Aquí tienes la estructura de una página HTML que podrías encontrarte:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Ya se ha leído con read_html() y está disponible como structured_html.

Este ejercicio forma parte del curso

Web Scraping con R

Ver curso

Instrucciones del ejercicio

  • Usando html_elements(), encuentra el selector más corto posible para seleccionar el primer div en structured_html.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Select the first div
structured_html %>%
  ___
Editar y ejecutar código