Convertir una página web en datos con BeautifulSoup: obtener los hipervínculos
En este ejercicio, aprenderás a extraer las URL de los hipervínculos de la página web del BDFL. En el proceso, te harás muy amigo del método de la sopa find_all()
.
Este ejercicio forma parte del curso
Importación de datos intermedios en Python
Instrucciones del ejercicio
- Utiliza el método
find_all()
para encontrar todos los hipervínculos ensoup
, recordando que los hipervínculos se definen mediante la etiqueta HTML<a>
pero se pasan afind_all()
sin corchetes angulares; almacena el resultado en la variablea_tags
. - La variable
a_tags
es un conjunto de resultados: ahora tu trabajo consiste en enumerarlo, utilizando un bucle «for
» (recorrer), e imprimir las URL reales de los hipervínculos; para ello, por cada elementolink
ena_tags
, debes hacer lo siguiente:print()
link.get('href')
.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extracts the response as html: html_doc
html_doc = r.text
# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)
# Print the title of Guido's webpage
print(soup.title)
# Find all 'a' tags (which define hyperlinks): a_tags
# Print the URLs to the shell
for ____ in ____:
____