ComenzarEmpieza gratis

Convertir una página web en datos con BeautifulSoup: obtener el texto

Tal y como se prometió, en los siguientes ejercicios aprenderás los conceptos básicos para extraer información del código HTML. En este ejercicio, aprenderás a extraer el texto de la página web del BDFL, además de imprimir el título de la página web.

Este ejercicio forma parte del curso

Importación de datos intermedios en Python

Ver curso

Instrucciones del ejercicio

  • En el código de ejemplo, el objeto de respuesta HTML html_doc ya se ha creado: tu primera tarea es convertirlo a Soupify utilizando la función BeautifulSoup() y asignar el soup resultante a la variable soup.
  • Extrae el título del código HTML soup utilizando el atributo title y asigna el resultado a guido_title.
  • Imprime el título de la página web de Guido en el terminal utilizando la función print().
  • Extrae el texto del código HTML soup utilizando el método get_text() y asígnale a guido_text.
  • Pulsa «Enviar» para imprimir el texto de la página web de Guido en el terminal.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)
Editar y ejecutar código