Parsear HTML con BeautifulSoup
En este ejercicio interactivo, aprenderás a usar el paquete BeautifulSoup para parsear, formatear y extraer información de HTML. Harás scraping de los datos de la página web de Guido van Rossum, el Benevolent Dictator for Life de Python. En los siguientes ejercicios, primero darás formato al HTML y luego extraerás el texto y los hiperenlaces.
La URL de interés es url = 'https://www.python.org/~guido/'.
Este ejercicio forma parte del curso
Importación intermedia de datos en Python
Instrucciones del ejercicio
- Importa la función
BeautifulSoupdel paquetebs4. - Asigna la URL de interés a la variable
url. - Prepara la solicitud a la URL, envíala y captura la respuesta con una única función
requests.get(), asignando la respuesta a la variabler. - Usa el atributo
textdel objetorpara obtener el HTML de la página como una cadena; guarda el resultado en la variablehtml_doc. - Crea un objeto BeautifulSoup
soupa partir del HTML resultante usando la funciónBeautifulSoup(). - Usa el método
prettify()sobresoupy asigna el resultado apretty_soup. - Pulsa Enviar para imprimir el HTML formateado en tu consola.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)