Analizar HTML con BeautifulSoup
En este ejercicio interactivo, aprenderás a utilizar el paquete BeautifulSoup para analizar, embellecer y extraer información de HTML. Recopilarás los datos de la página web de Guido van Rossum, el benevolente dictador vitalicio de Python. En los siguientes ejercicios, vas a embellecer el HTML y luego extraer el texto y los hipervínculos.
La URL de interés es url = 'https://www.python.org/~guido/'
.
Este ejercicio forma parte del curso
Importación de datos intermedios en Python
Instrucciones del ejercicio
- Importa la función
BeautifulSoup
desde el paquetebs4
. - Asigna la URL de interés a la variable
url
. - Empaqueta la solicitud en la URL, envía la solicitud y captura la respuesta con una sola función
requests.get()
, asignando la respuesta a la variabler
. - Utiliza el atributo
text
del objetor
para devolver el código HTML de la página web como una cadena; almacena el resultado en una variablehtml_doc
. - Crea un objeto BeautifulSoup
soup
a partir del HTML resultante utilizando la funciónBeautifulSoup()
. - Utiliza el método
prettify()
ensoup
y asigna el resultado apretty_soup
. - ¡Pulsa enviar para imprimir en HTML optimizado en tu terminal!
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)