Aan de slagGa gratis aan de slag

Hyper(link) actief

Een van de belangrijkste attributen om te extraheren voor "web-crawling" is de hyperlink-URL (het href-attribuut) binnen een a-tag. Hier ga je zo’n hyperlink extraheren! We hebben de functie print_attribute gemaakt om de data af te drukken die uit je XPath wordt gehaald, zodat je je XPath-strings in de console kunt testen als je wilt.

De oefening verwijst naar de volgende HTML-broncode:

<html>
  <body>
    <div id="div1" class="class-1">
      <p class="class-1 class-2">Hello World!</p>
      <div id="div2">
        <p id="p2" class="class-2">Choose 
            <a href="http://datacamp.com">DataCamp!</a>!
        </p>
      </div>
    </div>
    <div id="div3" class="class-2">
      <p class="class-2">Thanks for Watching!</p>
    </div>
  </body>
</html>

Deze oefening maakt deel uit van de cursus

Webscraping in Python

Cursus bekijken

Oefeninstructies

  • Vul de lege plekken in om de variabele xpath hieronder te voltooien en de waarde van het href-attribuut uit de DataCamp-hyperlink te selecteren.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'

# Print out the selection(s); there should be only one
print_attribute( xpath )
Code bewerken en uitvoeren