Hyper(link)aktiv
Eines der wichtigsten Attribute, die für das „Web Crawling“ extrahiert werden müssen, ist die Hyperlink-URL (das href
-Attribut) innerhalb eines a
-Tags. Hier wirst du einen solchen Hyperlink extrahieren! Wir haben die Funktion print_attribute
erstellt, um die aus deinem XPath extrahierten Daten auszudrucken, damit du deine XPath-Strings in der Konsole testen kannst, wenn du möchtest.
Die Aufgabe bezieht sich auf den folgenden HTML-Quellcode:
<html>
<body>
<div id="div1" class="class-1">
<p class="class-1 class-2">Hello World!</p>
<div id="div2">
<p id="p2" class="class-2">Choose
<a href="http://datacamp.com">DataCamp!</a>!
</p>
</div>
</div>
<div id="div3" class="class-2">
<p class="class-2">Thanks for Watching!</p>
</div>
</body>
</html>
Diese Übung ist Teil des Kurses
Web Scraping in Python
Anleitung zur Übung
- Fülle die Lücken aus, um die Variable
xpath
unten zu vervollständigen und den Wert des Attributshref
aus dem DataCamp-Hyperlink auszuwählen.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'
# Print out the selection(s); there should be only one
print_attribute( xpath )