Hyper(lien) Actif

L'un des attributs les plus importants à extraire pour le "web-crawling" est l'url de l'hyperlien (attributhref ) à l'intérieur d'une balise a. Ici, vous allez extraire un tel lien hypertexte ! Nous avons créé la fonction print_attribute pour imprimer les données extraites de votre XPath, afin que vous puissiez tester vos chaînes XPath dans la console, si vous le souhaitez.

L'exercice se réfère au code source suivant : HTML:

<html>

  <body>

    <div id="div1" class="class-1">

      <p class="class-1 class-2">Hello World!</p>

      <div id="div2">

        <p id="p2" class="class-2">Choose 

            <a href="http://datacamp.com">DataCamp!</a>!

        </p>

      </div>

    </div>

    <div id="div3" class="class-2">

      <p class="class-2">Thanks for Watching!</p>

    </div>

  </body>

</html>

Cet exercice fait partie du cours

<cours>Web Scraping en Python</cours>

Voir le cours

Instructions de l’exercice

Remplissez les blancs pour compléter la variable xpath ci-dessous afin de sélectionner la valeur de l'attribut href à partir de l'hyperlien DataCamp.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'

# Print out the selection(s); there should be only one
print_attribute( xpath )

Modifier et exécuter le code