Hiper(enlace) activo
Uno de los atributos más importantes que hay que extraer para el "web crawling" es la URL del hipervínculo (atributo href
) dentro de una etiqueta a
. Aquí, extraerás dicho hiperenlace. Hemos creado la función print_attribute
para imprimir los datos extraídos de tu XPath, de modo que puedas probar tus cadenas XPath en la consola, si quieres.
El ejercicio se refiere al siguiente código fuente HTML:
<html>
<body>
<div id="div1" class="class-1">
<p class="class-1 class-2">Hello World!</p>
<div id="div2">
<p id="p2" class="class-2">Choose
<a href="http://datacamp.com">DataCamp!</a>!
</p>
</div>
</div>
<div id="div3" class="class-2">
<p class="class-2">Thanks for Watching!</p>
</div>
</body>
</html>
Este ejercicio forma parte del curso
Web scraping en Python
Instrucciones de ejercicio
- Rellena los espacios en blanco para completar la variable
xpath
que aparece a continuación para seleccionar el valor del atributohref
del hipervínculo DataCamp.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'
# Print out the selection(s); there should be only one
print_attribute( xpath )