Hyper(link) attivo
Uno degli attributi più importanti da estrarre per il "web-crawling" è l'URL del collegamento (href) all'interno di un tag a. Qui estrarrai proprio quel collegamento! Abbiamo creato la funzione print_attribute per stampare i dati estratti dal tuo XPath, così puoi testare le tue stringhe XPath nella console, se vuoi.
L'esercizio fa riferimento al seguente codice sorgente HTML:
<html>
<body>
<div id="div1" class="class-1">
<p class="class-1 class-2">Hello World!</p>
<div id="div2">
<p id="p2" class="class-2">Choose
<a href="http://datacamp.com">DataCamp!</a>!
</p>
</div>
</div>
<div id="div3" class="class-2">
<p class="class-2">Thanks for Watching!</p>
</div>
</body>
</html>
Questo esercizio fa parte del corso
Web Scraping in Python
Istruzioni dell'esercizio
- Compila gli spazi vuoti per completare la variabile
xpathqui sotto e selezionare il valore dell'attributohrefdal collegamento a DataCamp.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'
# Print out the selection(s); there should be only one
print_attribute( xpath )