Analizzare l'HTML con BeautifulSoup

In questo esercizio interattivo imparerai a usare il package BeautifulSoup per analizzare (parse), formattare (prettify) ed estrarre informazioni dall'HTML. Effettuerai lo scraping dei dati dalla pagina web di Guido van Rossum, il Benevolent Dictator for Life di Python. Nei prossimi passaggi formatterai l'HTML e poi estrarrai il testo e gli hyperlink.

L'URL di interesse è url = 'https://www.python.org/~guido/'.

Questo esercizio fa parte del corso

Importazione di dati in Python - livello intermedio

Visualizza corso

Istruzioni dell'esercizio

Importa la funzione BeautifulSoup dal package bs4.
Assegna l'URL di interesse alla variabile url.
Prepara la richiesta all'URL, inviala e cattura la risposta con un'unica funzione requests.get(), assegnando la risposta alla variabile r.
Usa l'attributo text dell'oggetto r per ottenere l'HTML della pagina web come stringa; salva il risultato nella variabile html_doc.
Crea un oggetto BeautifulSoup soup dall'HTML ottenuto usando la funzione BeautifulSoup().
Usa il metodo prettify() su soup e assegna il risultato a pretty_soup.
Premi Invia per stampare nella shell l'HTML formattato!

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)

Modifica ed esegui il codice