Aproveite a exclusividade dos IDs
Como você sabe, IDs devem ser únicos em uma página da web. Se você garantir que esse é o caso, pode reduzir drasticamente a complexidade dos seus seletores de scraping.
Aqui está a estrutura de uma página HTML que você pode encontrar por aí:
<html>
<body>
<div id = 'first'>
<h1 class = 'big'>Joe Biden</h1>
<p class = 'first blue'>Democrat</p>
<p class = 'second blue'>Male</p>
</div>
<div id = 'second'>...</div>
<div id = 'third'>
<h1 class = 'big'>Donald Trump</h1>
<p class = 'first red'>Republican</p>
<p class = 'second red'>Male</p>
</div>
</body>
</html>
O conteúdo já foi lido com read_html() e está disponível em structured_html.
Este exercício faz parte do curso
Web Scraping em R
Instruções do exercício
- Usando
html_elements(), encontre o seletor mais curto possível para selecionar a primeiradivemstructured_html.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Select the first div
structured_html %>%
___