Convertir una página web en datos con BeautifulSoup: obtener el texto
Como prometimos, en los siguientes ejercicios aprenderás lo básico para extraer información de una sopa HTML. En este ejercicio, descubrirás cómo extraer el texto de la página web de BDFL, además de imprimir el título de la página web.
Este ejercicio forma parte del curso
Intermedio Importar datos en Python
Instrucciones de ejercicio
- En el código de ejemplo, el objeto de respuesta HTML
html_doc
ya ha sido creado: su primera tarea es sopificarlo utilizando la funciónBeautifulSoup()
y asignar la sopa resultante a la variablesoup
. - Extraiga el título de la sopa HTML
soup
utilizando el atributotitle
y asigne el resultado aguido_title
. - Imprime el título de la página web de Guido en el shell utilizando la función
print()
. - Extraiga el texto de la sopa HTML
soup
utilizando el métodoget_text()
y asígnelo aguido_text
. - Pulsa enviar para imprimir el texto de la página web de Guido en el shell.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)