Transformer une page web en données avec BeautifulSoup : récupérer le texte
Comme promis, dans les exercices qui suivent, vous allez apprendre les bases de l’extraction d’informations à partir d’une soupe HTML. Dans cet exercice, vous allez voir comment extraire le texte de la page du BDFL et afficher le titre de la page.
Cet exercice fait partie du cours
Importation intermédiaire de données en Python
Instructions
- Dans l’exemple de code, l’objet de réponse HTML
html_doca déjà été créé : votre première tâche est de le « soupifier » avec la fonctionBeautifulSoup()et d’affecter la soupe résultante à la variablesoup. - Extrayez le titre de la soupe HTML
soupà l’aide de l’attributtitleet assignez le résultat àguido_title. - Affichez le titre de la page de Guido dans le terminal avec la fonction
print(). - Extrayez le texte de la soupe HTML
soupà l’aide de la méthodeget_text()et assignez-le àguido_text. - Cliquez sur Soumettre pour afficher le texte de la page de Guido dans le terminal.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)