ComenzarEmpieza gratis

Análisis de HTML con BeautifulSoup

En este ejercicio interactivo, aprenderás a utilizar el paquete BeautifulSoup para parsear, prettificar y extraer información de HTML. Extraerás los datos de la página web de Guido van Rossum, el dictador benévolo de Python Benevolent Dictator for Life. En los siguientes ejercicios, embellecerás el HTML y luego extraerás el texto y los hipervínculos.

La URL de interés es url = 'https://www.python.org/~guido/'.

Este ejercicio forma parte del curso

Intermedio Importar datos en Python

Ver curso

Instrucciones de ejercicio

  • Importe la función BeautifulSoup del paquete bs4.
  • Asigne la URL de interés a la variable url.
  • Empaqueta la petición a la URL, envía la petición y captura la respuesta con una única función requests.get(), asignando la respuesta a la variable r.
  • Utilice el atributo text del objeto r para devolver el HTML de la página web en forma de cadena; almacene el resultado en una variable html_doc.
  • Cree un objeto BeautifulSoup soup a partir del HTML resultante utilizando la función BeautifulSoup().
  • Utiliza el método prettify() en soup y asigna el resultado a pretty_soup.
  • Pulsa enviar para imprimir el HTML embellecido en tu shell.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)
Editar y ejecutar código