Analyser du HTML avec BeautifulSoup
Dans cet exercice interactif, vous allez apprendre à utiliser le paquet BeautifulSoup pour analyser (parse), mettre en forme (prettify) et extraire des informations depuis du HTML. Vous allez récupérer des données depuis la page web de Guido van Rossum, le Benevolent Dictator for Life historique de Python. Dans les exercices suivants, vous mettrez en forme le HTML, puis vous en extrairez le texte et les hyperliens.
L’URL qui nous intéresse est url = 'https://www.python.org/~guido/'.
Cet exercice fait partie du cours
Importation intermédiaire de données en Python
Instructions
- Importez la fonction
BeautifulSoupdepuis le paquetbs4. - Affectez l’URL qui nous intéresse à la variable
url. - Préparez la requête vers l’URL, envoyez-la et récupérez la réponse en une seule fonction
requests.get(), en affectant la réponse à la variabler. - Utilisez l’attribut
textde l’objetrpour récupérer le HTML de la page web sous forme de chaîne ; stockez le résultat dans une variablehtml_doc. - Créez un objet BeautifulSoup
soupà partir du HTML obtenu en utilisant la fonctionBeautifulSoup(). - Utilisez la méthode
prettify()sursoupet affectez le résultat àpretty_soup. - Cliquez sur Soumettre pour afficher dans votre console le HTML mis en forme !
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)