CommencerCommencer gratuitement

Analyser du HTML avec BeautifulSoup

Dans cet exercice interactif, vous allez apprendre à utiliser le paquet BeautifulSoup pour analyser (parse), mettre en forme (prettify) et extraire des informations depuis du HTML. Vous allez récupérer des données depuis la page web de Guido van Rossum, le Benevolent Dictator for Life historique de Python. Dans les exercices suivants, vous mettrez en forme le HTML, puis vous en extrairez le texte et les hyperliens.

L’URL qui nous intéresse est url = 'https://www.python.org/~guido/'.

Cet exercice fait partie du cours

Importation intermédiaire de données en Python

Afficher le cours

Instructions

  • Importez la fonction BeautifulSoup depuis le paquet bs4.
  • Affectez l’URL qui nous intéresse à la variable url.
  • Préparez la requête vers l’URL, envoyez-la et récupérez la réponse en une seule fonction requests.get(), en affectant la réponse à la variable r.
  • Utilisez l’attribut text de l’objet r pour récupérer le HTML de la page web sous forme de chaîne ; stockez le résultat dans une variable html_doc.
  • Créez un objet BeautifulSoup soup à partir du HTML obtenu en utilisant la fonction BeautifulSoup().
  • Utilisez la méthode prettify() sur soup et affectez le résultat à pretty_soup.
  • Cliquez sur Soumettre pour afficher dans votre console le HTML mis en forme !

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)
Modifier et exécuter le code