Analyser du HTML avec BeautifulSoup

Dans cet exercice interactif, vous allez apprendre à utiliser le package BeautifulSoup pour analyser, mettre en forme (prettify) et extraire des informations à partir de HTML. Vous allez récupérer des données depuis la page web de Guido van Rossum, le Benevolent Dictator for Life de Python. Dans les exercices suivants, vous mettrez en forme le HTML, puis vous en extraierez le texte et les hyperliens.

L’URL qui nous intéresse est url = 'https://www.python.org/~guido/'.

Cet exercice fait partie du cours

<cours>Importation intermédiaire de données en Python</cours>

Instructions de l’exercice

Importez la fonction BeautifulSoup depuis le package bs4.
Affectez l’URL qui vous intéresse à la variable url.
Préparez la requête vers l’URL, envoyez-la et récupérez la réponse avec la fonction unique requests.get(), en stockant la réponse dans la variable r.
Utilisez l’attribut text de l’objet r pour obtenir le HTML de la page web sous forme de chaîne ; stockez le résultat dans une variable html_doc.
Créez un objet BeautifulSoup soup à partir du HTML obtenu en utilisant la fonction BeautifulSoup().
Utilisez la méthode prettify() sur soup et affectez le résultat à pretty_soup.
Appuyez sur Soumettre la réponse pour afficher dans votre terminal le HTML mis en forme !

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Importation intermédiaire de données en Python</cours>

DébutantNiveau de compétence

4.8+

Commencer le cours gratuitement

Le web est une source riche de données qui permet d’extraire différents types d’informations et d’enseignements. Dans ce chapitre, vous allez apprendre à récupérer des données depuis le web, qu’elles soient stockées dans des fichiers ou dans du HTML. Vous verrez aussi les bases du scraping et de l’analyse de données web.

Exercise 1: Importer des fichiers plats depuis le web Exercise 2: Importer des fichiers plats depuis le web : à vous de jouer !Exercise 3: Ouvrir et lire des fichiers plats depuis le web Exercise 4: Importer des fichiers non plats depuis le web Exercise 5: Demandes HTTP pour l'importation de fichiers depuis le Web Exercise 6: Effectuer des requêtes HTTP en Python avec urllib Exercise 7: Afficher le résultat d’une requête HTTP en Python avec urllib Exercise 8: Effectuer des requêtes HTTP en Python avec requests Exercise 9: Explorer le Web avec Python Exercise 10: Analyser du HTML avec BeautifulSoup

Exercice actuel

Exercise 11: Transformer une page web en données avec BeautifulSoup : récupérer le texte Exercise 12: Transformer une page web en données avec BeautifulSoup : récupérer les hyperliens

Dans ce chapitre, vous allez approfondir votre compréhension de l’importation de données depuis le web. Vous apprendrez les bases de l’extraction de données via des API, comprendrez l’importance des API et vous vous entraînerez à extraire des données en explorant les API OMDB et Library of Congress.

Exercise 1: Introduction aux API et aux JSON Exercise 2: Petit quiz : qu’est-ce qu’un JSON, exactement ?Exercise 3: Charger et explorer un JSON Exercise 4: Petit quiz : explorer votre JSON Exercise 5: Les API et l'interaction avec le World Wide Web Exercise 6: Petit quiz : qu’est-ce qu’une API ?Exercise 7: Requêtes API Exercise 8: JSON : du web à Python Exercise 9: Explorer l’API de Wikipedia

Dans ce chapitre, vous consoliderez vos connaissances sur l’interaction avec des API grâce à une exploration approfondie de la Twitter streaming API. Vous apprendrez à diffuser des données Twitter en temps réel, puis à les analyser et à les visualiser.

Exercise 1: L’API Twitter et l’authentification Exercise 2: Diffuser des tweets en continu Exercise 3: Charger et explorer vos données Twitter Exercise 4: Des données Twitter vers un DataFrame Exercise 5: Un peu d’analyse de texte sur Twitter Exercise 6: Visualiser vos données Twitter Exercise 7: Réflexions finales