ComenzarEmpieza gratis

Convertir una página web en datos con BeautifulSoup: obtener el texto

Como prometimos, en los próximos ejercicios aprenderás lo básico para extraer información de una sopa HTML. En este ejercicio, verás cómo extraer el texto de la página del BDFL y cómo imprimir el título de la página.

Este ejercicio forma parte del curso

Importación intermedia de datos en Python

Ver curso

Instrucciones del ejercicio

  • En el código de ejemplo, el objeto de respuesta HTML html_doc ya se ha creado: tu primera tarea es convertirlo en sopa usando la función BeautifulSoup() y asignar la sopa resultante a la variable soup.
  • Extrae el título de la sopa HTML soup usando el atributo title y asigna el resultado a guido_title.
  • Imprime el título de la página de Guido en la consola usando la función print().
  • Extrae el texto de la sopa HTML soup usando el método get_text() y asígnalo a guido_text.
  • Pulsa Enviar para imprimir el texto de la página de Guido en la consola.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)
Editar y ejecutar código