Hyper(link) actief

Een van de belangrijkste attributen om te extraheren voor "web-crawling" is de hyperlink-URL (het href-attribuut) binnen een a-tag. Hier ga je zo’n hyperlink extraheren! We hebben de functie print_attribute gemaakt om de data af te drukken die uit je XPath wordt gehaald, zodat je je XPath-strings in de console kunt testen als je wilt.

De oefening verwijst naar de volgende HTML-broncode:

<html>
  <body>
    <div id="div1" class="class-1">
      <p class="class-1 class-2">Hello World!</p>
      <div id="div2">
        <p id="p2" class="class-2">Choose 
            <a href="http://datacamp.com">DataCamp!</a>!
        </p>
      </div>
    </div>
    <div id="div3" class="class-2">
      <p class="class-2">Thanks for Watching!</p>
    </div>
  </body>
</html>

Deze oefening maakt deel uit van de cursus

Webscraping in Python

Bekijk cursus

Oefeninstructies

Vul de lege plekken in om de variabele xpath hieronder te voltooien en de waarde van het href-attribuut uit de DataCamp-hyperlink te selecteren.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'

# Print out the selection(s); there should be only one
print_attribute( xpath )

Code bewerken en uitvoeren