Convertir una página web en datos con BeautifulSoup: obtener el texto
Como prometimos, en los próximos ejercicios aprenderás lo básico para extraer información de una sopa HTML. En este ejercicio, verás cómo extraer el texto de la página del BDFL y cómo imprimir el título de la página.
Este ejercicio forma parte del curso
Importación intermedia de datos en Python
Instrucciones del ejercicio
- En el código de ejemplo, el objeto de respuesta HTML
html_docya se ha creado: tu primera tarea es convertirlo en sopa usando la funciónBeautifulSoup()y asignar la sopa resultante a la variablesoup. - Extrae el título de la sopa HTML
soupusando el atributotitley asigna el resultado aguido_title. - Imprime el título de la página de Guido en la consola usando la función
print(). - Extrae el texto de la sopa HTML
soupusando el métodoget_text()y asígnalo aguido_text. - Pulsa Enviar para imprimir el texto de la página de Guido en la consola.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)