Trasformare una pagina web in dati con BeautifulSoup: ottenere il testo
Come promesso, nei prossimi esercizi imparerai le basi per estrarre informazioni dalla zuppa HTML. In questo esercizio capirai come estrarre il testo dalla pagina web del BDFL e come stamparne anche il titolo.
Questo esercizio fa parte del corso
Importazione di dati in Python - livello intermedio
Istruzioni dell'esercizio
- Nel codice di esempio, l'oggetto di risposta HTML
html_docè già stato creato: il tuo primo compito è trasformarlo in una "zuppa" usando la funzioneBeautifulSoup()e assegnare la zuppa risultante alla variabilesoup. - Estrai il titolo dalla zuppa HTML
soupusando l'attributotitlee assegna il risultato aguido_title. - Stampa il titolo della pagina web di Guido nel terminale usando la funzione
print(). - Estrai il testo dalla zuppa HTML
soupusando il metodoget_text()e assegnalo aguido_text. - Premi Invia per stampare nel terminale il testo dalla pagina web di Guido.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)