CommencerCommencer gratuitement

Hyper(lien) Actif

L'un des attributs les plus importants à extraire pour le "web-crawling" est l'url de l'hyperlien (attributhref ) à l'intérieur d'une balise a. Ici, vous allez extraire un tel lien hypertexte ! Nous avons créé la fonction print_attribute pour imprimer les données extraites de votre XPath, afin que vous puissiez tester vos chaînes XPath dans la console, si vous le souhaitez.

L'exercice se réfère au code source suivant : HTML:

<html>

  <body>

    <div id="div1" class="class-1">

      <p class="class-1 class-2">Hello World!</p>

      <div id="div2">

        <p id="p2" class="class-2">Choose 

            <a href="http://datacamp.com">DataCamp!</a>!

        </p>

      </div>

    </div>

    <div id="div3" class="class-2">

      <p class="class-2">Thanks for Watching!</p>

    </div>

  </body>

</html>

Cet exercice fait partie du cours

Web Scraping en Python

Afficher le cours

Instructions

  • Remplissez les blancs pour compléter la variable xpath ci-dessous afin de sélectionner la valeur de l'attribut href à partir de l'hyperlien DataCamp.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'

# Print out the selection(s); there should be only one
print_attribute( xpath )
Modifier et exécuter le code