Hyper(link) attivo

Uno degli attributi più importanti da estrarre per il "web-crawling" è l'URL del collegamento (href) all'interno di un tag a. Qui estrarrai proprio quel collegamento! Abbiamo creato la funzione print_attribute per stampare i dati estratti dal tuo XPath, così puoi testare le tue stringhe XPath nella console, se vuoi.

L'esercizio fa riferimento al seguente codice sorgente HTML:

<html>
  <body>
    <div id="div1" class="class-1">
      <p class="class-1 class-2">Hello World!</p>
      <div id="div2">
        <p id="p2" class="class-2">Choose 
            <a href="http://datacamp.com">DataCamp!</a>!
        </p>
      </div>
    </div>
    <div id="div3" class="class-2">
      <p class="class-2">Thanks for Watching!</p>
    </div>
  </body>
</html>

Questo esercizio fa parte del corso

Web Scraping in Python

Visualizza corso

Istruzioni dell'esercizio

Compila gli spazi vuoti per completare la variabile xpath qui sotto e selezionare il valore dell'attributo href dal collegamento a DataCamp.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'

# Print out the selection(s); there should be only one
print_attribute( xpath )

Modifica ed esegui il codice