Análisis de HTML con BeautifulSoup
En este ejercicio interactivo, aprenderás a utilizar el paquete BeautifulSoup para parsear, prettificar y extraer información de HTML. Extraerás los datos de la página web de Guido van Rossum, el dictador benévolo de Python Benevolent Dictator for Life. En los siguientes ejercicios, embellecerás el HTML y luego extraerás el texto y los hipervínculos.
La URL de interés es url = 'https://www.python.org/~guido/'
.
Este ejercicio forma parte del curso
Intermedio Importar datos en Python
Instrucciones de ejercicio
- Importe la función
BeautifulSoup
del paquetebs4
. - Asigne la URL de interés a la variable
url
. - Empaqueta la petición a la URL, envía la petición y captura la respuesta con una única función
requests.get()
, asignando la respuesta a la variabler
. - Utilice el atributo
text
del objetor
para devolver el HTML de la página web en forma de cadena; almacene el resultado en una variablehtml_doc
. - Cree un objeto BeautifulSoup
soup
a partir del HTML resultante utilizando la funciónBeautifulSoup()
. - Utiliza el método
prettify()
ensoup
y asigna el resultado apretty_soup
. - Pulsa enviar para imprimir el HTML embellecido en tu shell.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)