1. Apprendre
  2. /
  3. Cours
  4. /
  5. Importation intermédiaire de données en Python

Connected

Exercice

Analyser du HTML avec BeautifulSoup

Dans cet exercice interactif, vous apprendrez à utiliser le paquet BeautifulSoup pour analyser, mettre en forme et extraire de l'information à partir de HTML. Vous récupérerez des données à partir de la page Web de Guido van Rossum, le Benevolent Dictator for Life de Python. Dans les exercices suivants, vous mettrez en forme le HTML, puis vous en extrairez le texte et les hyperliens.

L'URL qui nous intéresse est url = 'https://www.python.org/~guido/'.

Instructions

100 XP
  • Importez la fonction BeautifulSoup du paquet bs4.
  • Assignez l'URL visée à la variable url.
  • Préparez la requête vers l'URL, envoyez-la et interceptez la réponse avec une seule fonction requests.get(), en assignant la réponse à la variable r.
  • Utilisez l'attribut text de l'objet r pour obtenir le HTML de la page Web sous forme de chaîne; stockez le résultat dans une variable html_doc.
  • Créez un objet BeautifulSoup soup à partir du HTML obtenu en utilisant la fonction BeautifulSoup().
  • Utilisez la méthode prettify() sur soup et assignez le résultat à pretty_soup.
  • Cliquez sur Soumettre la réponse pour imprimer le HTML mis en forme dans votre interpréteur !