Trasformare una pagina web in dati con BeautifulSoup: ottenere il testo

Come promesso, nei prossimi esercizi imparerai le basi per estrarre informazioni dalla zuppa HTML. In questo esercizio capirai come estrarre il testo dalla pagina web del BDFL e come stamparne anche il titolo.

Questo esercizio fa parte del corso

Importazione di dati in Python - livello intermedio

Visualizza corso

Istruzioni dell'esercizio

Nel codice di esempio, l'oggetto di risposta HTML html_doc è già stato creato: il tuo primo compito è trasformarlo in una "zuppa" usando la funzione BeautifulSoup() e assegnare la zuppa risultante alla variabile soup.
Estrai il titolo dalla zuppa HTML soup usando l'attributo title e assegna il risultato a guido_title.
Stampa il titolo della pagina web di Guido nel terminale usando la funzione print().
Estrai il testo dalla zuppa HTML soup usando il metodo get_text() e assegnalo a guido_text.
Premi Invia per stampare nel terminale il testo dalla pagina web di Guido.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)

Modifica ed esegui il codice