Transformer une page web en données à l'aide de BeautifulSoup : obtenir le texte
Comme promis, dans les exercices suivants, vous apprendrez les bases de l'extraction d'informations à partir de la soupe HTML. Dans cet exercice, vous découvrirez comment extraire le texte de la page web de BDFL et comment imprimer le titre de la page web.
Cet exercice fait partie du cours
Intermédiaire Importer des données en Python
Instructions
- Dans l'exemple de code, l'objet réponse HTML
html_doc
a déjà été créé : votre première tâche est de le Soupifier à l'aide de la fonctionBeautifulSoup()
et d'assigner la soupe résultante à la variablesoup
. - Extrayez le titre de la soupe HTML
soup
à l'aide de l'attributtitle
et affectez le résultat àguido_title
. - Imprimez le titre de la page web de Guido sur le shell à l'aide de la fonction
print()
. - Extrayez le texte de la soupe HTML
soup
à l'aide de la méthodeget_text()
et affectez-le àguido_text
. - Cliquez sur soumettre pour imprimer le texte de la page web de Guido sur le shell.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)