CommencerCommencer gratuitement

Transformer une page web en données à l'aide de BeautifulSoup : obtenir le texte

Comme promis, dans les exercices suivants, vous apprendrez les bases de l'extraction d'informations à partir de la soupe HTML. Dans cet exercice, vous découvrirez comment extraire le texte de la page web de BDFL et comment imprimer le titre de la page web.

Cet exercice fait partie du cours

Intermédiaire Importer des données en Python

Afficher le cours

Instructions

  • Dans l'exemple de code, l'objet réponse HTML html_doc a déjà été créé : votre première tâche est de le Soupifier à l'aide de la fonction BeautifulSoup() et d'assigner la soupe résultante à la variable soup.
  • Extrayez le titre de la soupe HTML soup à l'aide de l'attribut title et affectez le résultat à guido_title.
  • Imprimez le titre de la page web de Guido sur le shell à l'aide de la fonction print().
  • Extrayez le texte de la soupe HTML soup à l'aide de la méthode get_text() et affectez-le à guido_text.
  • Cliquez sur soumettre pour imprimer le texte de la page web de Guido sur le shell.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)
Modifier et exécuter le code