Erste SchritteKostenlos loslegen

Hyper(link)aktiv

Eines der wichtigsten Attribute, die für das „Web Crawling“ extrahiert werden müssen, ist die Hyperlink-URL (das href-Attribut) innerhalb eines a-Tags. Hier wirst du einen solchen Hyperlink extrahieren! Wir haben die Funktion print_attribute erstellt, um die aus deinem XPath extrahierten Daten auszudrucken, damit du deine XPath-Strings in der Konsole testen kannst, wenn du möchtest.

Die Aufgabe bezieht sich auf den folgenden HTML-Quellcode:

<html>

  <body>

    <div id="div1" class="class-1">

      <p class="class-1 class-2">Hello World!</p>

      <div id="div2">

        <p id="p2" class="class-2">Choose 

            <a href="http://datacamp.com">DataCamp!</a>!

        </p>

      </div>

    </div>

    <div id="div3" class="class-2">

      <p class="class-2">Thanks for Watching!</p>

    </div>

  </body>

</html>

Diese Übung ist Teil des Kurses

Web Scraping in Python

Kurs anzeigen

Anleitung zur Übung

  • Fülle die Lücken aus, um die Variable xpath unten zu vervollständigen und den Wert des Attributs href aus dem DataCamp-Hyperlink auszuwählen.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'

# Print out the selection(s); there should be only one
print_attribute( xpath )
Bearbeiten und Ausführen von Code