Convertir una página web en datos con BeautifulSoup: obtener el texto

Como prometimos, en los siguientes ejercicios aprenderás lo básico para extraer información de una sopa HTML. En este ejercicio, descubrirás cómo extraer el texto de la página web de BDFL, además de imprimir el título de la página web.

Este ejercicio forma parte del curso

Intermedio Importar datos en Python

Ver curso

Instrucciones de ejercicio

  • En el código de ejemplo, el objeto de respuesta HTML html_doc ya ha sido creado: su primera tarea es sopificarlo utilizando la función BeautifulSoup() y asignar la sopa resultante a la variable soup.
  • Extraiga el título de la sopa HTML soup utilizando el atributo title y asigne el resultado a guido_title.
  • Imprime el título de la página web de Guido en el shell utilizando la función print().
  • Extraiga el texto de la sopa HTML soup utilizando el método get_text() y asígnelo a guido_text.
  • Pulsa enviar para imprimir el texto de la página web de Guido en el shell.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)