Parsing HTML avec BeautifulSoup
Dans cet exercice interactif, vous apprendrez à utiliser le paquetage BeautifulSoup pour analyser, embellir et extraire des informations de HTML. Vous récupérerez les données de la page web de Guido van Rossum, le dictateur bienveillant à vie de Python. Dans les exercices suivants, vous allez embellir le site HTML puis extraire le texte et les liens hypertextes.
Le site URL qui nous intéresse est url = 'https://www.python.org/~guido/'
.
Cet exercice fait partie du cours
Intermédiaire Importer des données en Python
Instructions
- Importez la fonction
BeautifulSoup
du paquetbs4
. - Affectez le site URL à la variable
url
. - Transmettez la demande à l'adresse URL, envoyez la demande et récupérez la réponse à l'aide d'une seule fonction
requests.get()
, en attribuant la réponse à la variabler
. - Utilisez l'attribut
text
de l'objetr
pour renvoyer le HTML de la page web sous forme de chaîne de caractères ; stockez le résultat dans une variablehtml_doc
. - Créez un objet BeautifulSoup
soup
à partir du résultat HTML en utilisant la fonctionBeautifulSoup()
. - Utilisez la méthode
prettify()
sursoup
et affectez le résultat àpretty_soup
. - Cliquez sur soumettre pour imprimer le site HTML et l'envoyer à votre shell !
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)