Analizzare l'HTML con BeautifulSoup
In questo esercizio interattivo imparerai a usare il package BeautifulSoup per analizzare (parse), formattare (prettify) ed estrarre informazioni dall'HTML. Effettuerai lo scraping dei dati dalla pagina web di Guido van Rossum, il Benevolent Dictator for Life di Python. Nei prossimi passaggi formatterai l'HTML e poi estrarrai il testo e gli hyperlink.
L'URL di interesse è url = 'https://www.python.org/~guido/'.
Questo esercizio fa parte del corso
Importazione di dati in Python - livello intermedio
Istruzioni dell'esercizio
- Importa la funzione
BeautifulSoupdal packagebs4. - Assegna l'URL di interesse alla variabile
url. - Prepara la richiesta all'URL, inviala e cattura la risposta con un'unica funzione
requests.get(), assegnando la risposta alla variabiler. - Usa l'attributo
textdell'oggettorper ottenere l'HTML della pagina web come stringa; salva il risultato nella variabilehtml_doc. - Crea un oggetto BeautifulSoup
soupdall'HTML ottenuto usando la funzioneBeautifulSoup(). - Usa il metodo
prettify()susoupe assegna il risultato apretty_soup. - Premi Invia per stampare nella shell l'HTML formattato!
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)