ComeçarComece de graça

Aproveite a exclusividade dos IDs

Como você sabe, IDs devem ser únicos em uma página da web. Se você garantir que esse é o caso, pode reduzir drasticamente a complexidade dos seus seletores de scraping.

Aqui está a estrutura de uma página HTML que você pode encontrar por aí:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

O conteúdo já foi lido com read_html() e está disponível em structured_html.

Este exercício faz parte do curso

Web Scraping em R

Ver curso

Instruções do exercício

  • Usando html_elements(), encontre o seletor mais curto possível para selecionar a primeira div em structured_html.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Select the first div
structured_html %>%
  ___
Editar e executar o código