Analizar HTML con BeautifulSoup
En este ejercicio interactivo, aprenderás a utilizar el paquete BeautifulSoup para analizar, embellecer y extraer información de HTML. Recopilarás los datos de la página web de Guido van Rossum, el benevolente dictador vitalicio de Python. En los siguientes ejercicios, vas a embellecer el HTML y luego extraer el texto y los hipervínculos.
La URL de interés es url = 'https://www.python.org/~guido/'.
Este ejercicio forma parte del curso
Importación de datos intermedios en Python
Instrucciones del ejercicio
- Importa la función
BeautifulSoupdesde el paquetebs4. - Asigna la URL de interés a la variable
url. - Empaqueta la solicitud en la URL, envía la solicitud y captura la respuesta con una sola función
requests.get(), asignando la respuesta a la variabler. - Utiliza el atributo
textdel objetorpara devolver el código HTML de la página web como una cadena; almacena el resultado en una variablehtml_doc. - Crea un objeto BeautifulSoup
soupa partir del HTML resultante utilizando la funciónBeautifulSoup(). - Utiliza el método
prettify()ensoupy asigna el resultado apretty_soup. - ¡Pulsa enviar para imprimir en HTML optimizado en tu terminal!
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)