Transformer une page web en données à l'aide de BeautifulSoup : obtenir les hyperliens

Dans cet exercice, vous découvrirez comment extraire les URLs des hyperliens de la page web de BDFL. Vous deviendrez ainsi un ami proche de la méthode de la soupe find_all().

Cet exercice fait partie du cours

Intermédiaire Importer des données en Python

Afficher le cours

Instructions

Utilisez la méthode find_all() pour trouver tous les liens hypertextes dans soup, en vous rappelant que les liens hypertextes sont définis par la balise HTML <a> mais qu'ils sont transmis à find_all() sans crochets d'angle ; stockez le résultat dans la variable a_tags.
La variable a_tags est un ensemble de résultats : votre tâche consiste maintenant à l'énumérer, à l'aide d'une boucle for et à imprimer les URLs des hyperliens ; pour ce faire, pour chaque élément link dans a_tags, vous voulez print() link.get('href').

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____

Modifier et exécuter le code

Cet exercice fait partie du cours

Intermédiaire Importer des données en Python

DébutantNiveau de compétence

4.8+

Commencer le cours gratuitement

Le web est une riche source de données à partir de laquelle vous pouvez extraire différents types d'informations et de conclusions. Dans ce chapitre, vous apprendrez à récupérer des données sur le web, qu'elles soient stockées dans des fichiers ou sur HTML. Vous apprendrez également les bases du scraping et de l'analyse des données web.

Exercise 1: Importation de fichiers plats à partir du web Exercise 2: Importation de fichiers plats à partir du web : à vous de jouer !Exercise 3: Ouverture et lecture de fichiers plats à partir du web Exercise 4: Importation de fichiers non plats à partir du web Exercise 5: HTTP demandes d'importation de fichiers à partir du web Exercise 6: Effectuer des requêtes HTTP en Python à l'aide d'urllib Exercise 7: Impression des résultats des requêtes HTTP en Python à l'aide d'urllib Exercise 8: Effectuer des requêtes HTTP en Python à l'aide de requests Exercise 9: Scraping du web en Python Exercise 10: Parsing HTML avec BeautifulSoup Exercise 11: Transformer une page web en données à l'aide de BeautifulSoup : obtenir le texte Exercise 12: Transformer une page web en données à l'aide de BeautifulSoup : obtenir les hyperliens

Exercice en cours

Ce chapitre vous permettra de mieux comprendre comment importer des données à partir du web. Vous apprendrez les bases de l'extraction de données à partir de APIs, vous comprendrez l'importance de APIs et vous vous exercerez à l'extraction de données en vous plongeant dans les OMDB s et les APIs de la Bibliothèque du Congrès.

Exercise 1: Introduction à APIs et JSONs Exercise 2: Petit quiz : Qu'est-ce qu'un JSON?Exercise 3: Chargement et exploration d'un JSON Exercise 4: Petit quiz : Explorer votre JSON Exercise 5: APIet d'interagir avec le web Exercise 6: Petit quiz : Qu'est-ce qu'un API?Exercise 7: API demandes Exercise 8: JSON-du web à Python Exercise 9: Consulter la Wikipédia API

Dans ce chapitre, vous consoliderez vos connaissances en matière d'interaction avec APIs en vous plongeant dans le flux Twitter API. Vous apprendrez à diffuser des données Twitter en temps réel, à les analyser et à les visualiser.

Exercise 1: Le site Twitter API et l'authentification Exercise 2: Tweets en continu Exercise 3: Chargez et explorez vos données Twitter Exercise 4: Données Twitter vers DataFrame Exercise 5: Un peu d'analyse de texte sur Twitter Exercise 6: Tracer vos données Twitter Exercise 7: Réflexions finales