Hyper(link) actief
Een van de belangrijkste attributen om te extraheren voor "web-crawling" is de hyperlink-URL (het href-attribuut) binnen een a-tag. Hier ga je zo’n hyperlink extraheren! We hebben de functie print_attribute gemaakt om de data af te drukken die uit je XPath wordt gehaald, zodat je je XPath-strings in de console kunt testen als je wilt.
De oefening verwijst naar de volgende HTML-broncode:
<html>
<body>
<div id="div1" class="class-1">
<p class="class-1 class-2">Hello World!</p>
<div id="div2">
<p id="p2" class="class-2">Choose
<a href="http://datacamp.com">DataCamp!</a>!
</p>
</div>
</div>
<div id="div3" class="class-2">
<p class="class-2">Thanks for Watching!</p>
</div>
</body>
</html>
Deze oefening maakt deel uit van de cursus
Webscraping in Python
Oefeninstructies
- Vul de lege plekken in om de variabele
xpathhieronder te voltooien en de waarde van hethref-attribuut uit de DataCamp-hyperlink te selecteren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'
# Print out the selection(s); there should be only one
print_attribute( xpath )