Hyper(link) ativo
Um dos atributos mais importantes a serem extraídos para rastreamento na web é a URL do hiperlink (atributohref
) em uma tag a
. Aqui, você deve extrair esse hiperlink! Criamos a função print_attribute
para imprimir os dados extraídos do seu XPath, para que você possa testar as strings do XPath no console, se desejar.
O exercício se refere ao seguinte código-fonte HTML:
<html>
<body>
<div id="div1" class="class-1">
<p class="class-1 class-2">Hello World!</p>
<div id="div2">
<p id="p2" class="class-2">Choose
<a href="http://datacamp.com">DataCamp!</a>!
</p>
</div>
</div>
<div id="div3" class="class-2">
<p class="class-2">Thanks for Watching!</p>
</div>
</body>
</html>
Este exercício faz parte do curso
Raspagem da Web em Python
Instruções de exercício
- Preencha os espaços em branco para completar a variável
xpath
abaixo e selecionar o valor do atributohref
no hiperlink do DataCamp.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'
# Print out the selection(s); there should be only one
print_attribute( xpath )