Transformer une page web en données avec BeautifulSoup : récupérer le texte

Comme promis, dans les exercices qui suivent, vous allez apprendre les bases de l’extraction d’informations à partir d’une soupe HTML. Dans cet exercice, vous allez voir comment extraire le texte de la page du BDFL, et afficher le titre de la page.

Cet exercice fait partie du cours

<cours>Importation intermédiaire de données en Python</cours>

Instructions de l’exercice

Dans l’exemple de code, l’objet de réponse HTML html_doc a déjà été créé : votre première tâche est de le « soupifier » avec la fonction BeautifulSoup() et d’assigner la soupe résultante à la variable soup.
Extrayez le titre de la soupe HTML soup en utilisant l’attribut title et assignez le résultat à guido_title.
Affichez le titre de la page de Guido dans le shell avec la fonction print().
Extrayez le texte de la soupe HTML soup en utilisant la méthode get_text() et assignez-le à guido_text.
Cliquez sur Soumettre pour afficher le texte de la page de Guido dans le shell.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Importation intermédiaire de données en Python</cours>

DébutantNiveau de compétence

4.8+

Commencer le cours gratuitement

Le web est une source riche de données qui permet d’extraire différents types d’informations et d’enseignements. Dans ce chapitre, vous allez apprendre à récupérer des données depuis le web, qu’elles soient stockées dans des fichiers ou dans du HTML. Vous verrez aussi les bases du scraping et de l’analyse de données web.

Exercise 1: Importer des fichiers plats depuis le web Exercise 2: Importer des fichiers plats depuis le web : à vous de jouer !Exercise 3: Ouvrir et lire des fichiers plats depuis le web Exercise 4: Importer des fichiers non plats depuis le web Exercise 5: Demandes HTTP pour l'importation de fichiers depuis le Web Exercise 6: Effectuer des requêtes HTTP en Python avec urllib Exercise 7: Afficher le résultat d’une requête HTTP en Python avec urllib Exercise 8: Effectuer des requêtes HTTP en Python avec requests Exercise 9: Explorer le Web avec Python Exercise 10: Analyser du HTML avec BeautifulSoup Exercise 11: Transformer une page web en données avec BeautifulSoup : récupérer le texte

Exercice actuel

Exercise 12: Transformer une page web en données avec BeautifulSoup : récupérer les hyperliens

Dans ce chapitre, vous allez approfondir votre compréhension de l’importation de données depuis le web. Vous apprendrez les bases de l’extraction de données via des API, comprendrez l’importance des API et vous vous entraînerez à extraire des données en explorant les API OMDB et Library of Congress.

Exercise 1: Introduction aux API et aux JSON Exercise 2: Petit quiz : qu’est-ce qu’un JSON, exactement ?Exercise 3: Charger et explorer un JSON Exercise 4: Petit quiz : explorer votre JSON Exercise 5: Les API et l'interaction avec le World Wide Web Exercise 6: Petit quiz : qu’est-ce qu’une API ?Exercise 7: Requêtes API Exercise 8: JSON : du web à Python Exercise 9: Explorer l’API de Wikipedia

Dans ce chapitre, vous consoliderez vos connaissances sur l’interaction avec des API grâce à une exploration approfondie de la Twitter streaming API. Vous apprendrez à diffuser des données Twitter en temps réel, puis à les analyser et à les visualiser.

Exercise 1: L’API Twitter et l’authentification Exercise 2: Diffuser des tweets en continu Exercise 3: Charger et explorer vos données Twitter Exercise 4: Des données Twitter vers un DataFrame Exercise 5: Un peu d’analyse de texte sur Twitter Exercise 6: Visualiser vos données Twitter Exercise 7: Réflexions finales