CommencerCommencer gratuitement

Transformer une page web en données avec BeautifulSoup : récupérer le texte

Comme promis, dans les exercices qui suivent, vous allez apprendre les bases de l’extraction d’informations à partir d’une soupe HTML. Dans cet exercice, vous allez voir comment extraire le texte de la page du BDFL et afficher le titre de la page.

Cet exercice fait partie du cours

Importation intermédiaire de données en Python

Afficher le cours

Instructions

  • Dans l’exemple de code, l’objet de réponse HTML html_doc a déjà été créé : votre première tâche est de le « soupifier » avec la fonction BeautifulSoup() et d’affecter la soupe résultante à la variable soup.
  • Extrayez le titre de la soupe HTML soup à l’aide de l’attribut title et assignez le résultat à guido_title.
  • Affichez le titre de la page de Guido dans le terminal avec la fonction print().
  • Extrayez le texte de la soupe HTML soup à l’aide de la méthode get_text() et assignez-le à guido_text.
  • Cliquez sur Soumettre pour afficher le texte de la page de Guido dans le terminal.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)
Modifier et exécuter le code