CommencerCommencer gratuitement

Parsing HTML avec BeautifulSoup

Dans cet exercice interactif, vous apprendrez à utiliser le paquetage BeautifulSoup pour analyser, embellir et extraire des informations de HTML. Vous récupérerez les données de la page web de Guido van Rossum, le dictateur bienveillant à vie de Python. Dans les exercices suivants, vous allez embellir le site HTML puis extraire le texte et les liens hypertextes.

Le site URL qui nous intéresse est url = 'https://www.python.org/~guido/'.

Cet exercice fait partie du cours

Intermédiaire Importer des données en Python

Afficher le cours

Instructions

  • Importez la fonction BeautifulSoup du paquet bs4.
  • Affectez le site URL à la variable url.
  • Transmettez la demande à l'adresse URL, envoyez la demande et récupérez la réponse à l'aide d'une seule fonction requests.get(), en attribuant la réponse à la variable r.
  • Utilisez l'attribut text de l'objet r pour renvoyer le HTML de la page web sous forme de chaîne de caractères ; stockez le résultat dans une variable html_doc.
  • Créez un objet BeautifulSoup soup à partir du résultat HTML en utilisant la fonction BeautifulSoup().
  • Utilisez la méthode prettify() sur soup et affectez le résultat à pretty_soup.
  • Cliquez sur soumettre pour imprimer le site HTML et l'envoyer à votre shell !

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)
Modifier et exécuter le code