ComenzarEmpieza gratis

Parsear HTML con BeautifulSoup

En este ejercicio interactivo, aprenderás a usar el paquete BeautifulSoup para parsear, formatear y extraer información de HTML. Harás scraping de los datos de la página web de Guido van Rossum, el Benevolent Dictator for Life de Python. En los siguientes ejercicios, primero darás formato al HTML y luego extraerás el texto y los hiperenlaces.

La URL de interés es url = 'https://www.python.org/~guido/'.

Este ejercicio forma parte del curso

Importación intermedia de datos en Python

Ver curso

Instrucciones del ejercicio

  • Importa la función BeautifulSoup del paquete bs4.
  • Asigna la URL de interés a la variable url.
  • Prepara la solicitud a la URL, envíala y captura la respuesta con una única función requests.get(), asignando la respuesta a la variable r.
  • Usa el atributo text del objeto r para obtener el HTML de la página como una cadena; guarda el resultado en la variable html_doc.
  • Crea un objeto BeautifulSoup soup a partir del HTML resultante usando la función BeautifulSoup().
  • Usa el método prettify() sobre soup y asigna el resultado a pretty_soup.
  • Pulsa Enviar para imprimir el HTML formateado en tu consola.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)
Editar y ejecutar código