Convertir una página web en datos con BeautifulSoup: obtener el texto
Tal y como se prometió, en los siguientes ejercicios aprenderás los conceptos básicos para extraer información del código HTML. En este ejercicio, aprenderás a extraer el texto de la página web del BDFL, además de imprimir el título de la página web.
Este ejercicio forma parte del curso
Importación de datos intermedios en Python
Instrucciones del ejercicio
- En el código de ejemplo, el objeto de respuesta HTML
html_doc
ya se ha creado: tu primera tarea es convertirlo a Soupify utilizando la funciónBeautifulSoup()
y asignar el soup resultante a la variablesoup
. - Extrae el título del código HTML
soup
utilizando el atributotitle
y asigna el resultado aguido_title
. - Imprime el título de la página web de Guido en el terminal utilizando la función
print()
. - Extrae el texto del código HTML
soup
utilizando el métodoget_text()
y asígnale aguido_text
. - Pulsa «Enviar» para imprimir el texto de la página web de Guido en el terminal.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)