Hyper(lien) Actif
L'un des attributs les plus importants à extraire pour le "web-crawling" est l'url de l'hyperlien (attributhref
) à l'intérieur d'une balise a
. Ici, vous allez extraire un tel lien hypertexte ! Nous avons créé la fonction print_attribute
pour imprimer les données extraites de votre XPath, afin que vous puissiez tester vos chaînes XPath dans la console, si vous le souhaitez.
L'exercice se réfère au code source suivant : HTML:
<html>
<body>
<div id="div1" class="class-1">
<p class="class-1 class-2">Hello World!</p>
<div id="div2">
<p id="p2" class="class-2">Choose
<a href="http://datacamp.com">DataCamp!</a>!
</p>
</div>
</div>
<div id="div3" class="class-2">
<p class="class-2">Thanks for Watching!</p>
</div>
</body>
</html>
Cet exercice fait partie du cours
Web Scraping en Python
Instructions
- Remplissez les blancs pour compléter la variable
xpath
ci-dessous afin de sélectionner la valeur de l'attributhref
à partir de l'hyperlien DataCamp.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'
# Print out the selection(s); there should be only one
print_attribute( xpath )