ComenzarEmpieza gratis

Analizar HTML con BeautifulSoup

En este ejercicio interactivo, aprenderás a utilizar el paquete BeautifulSoup para analizar, embellecer y extraer información de HTML. Recopilarás los datos de la página web de Guido van Rossum, el benevolente dictador vitalicio de Python. En los siguientes ejercicios, vas a embellecer el HTML y luego extraer el texto y los hipervínculos.

La URL de interés es url = 'https://www.python.org/~guido/'.

Este ejercicio forma parte del curso

Importación de datos intermedios en Python

Ver curso

Instrucciones del ejercicio

  • Importa la función BeautifulSoup desde el paquete bs4.
  • Asigna la URL de interés a la variable url.
  • Empaqueta la solicitud en la URL, envía la solicitud y captura la respuesta con una sola función requests.get(), asignando la respuesta a la variable r.
  • Utiliza el atributo text del objeto r para devolver el código HTML de la página web como una cadena; almacena el resultado en una variable html_doc.
  • Crea un objeto BeautifulSoup soup a partir del HTML resultante utilizando la función BeautifulSoup().
  • Utiliza el método prettify() en soup y asigna el resultado a pretty_soup.
  • ¡Pulsa enviar para imprimir en HTML optimizado en tu terminal!

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)
Editar y ejecutar código