ComenzarEmpieza gratis

Convertir una página web en datos con BeautifulSoup: obtener los hipervínculos

En este ejercicio, aprenderás a extraer las URL de los hipervínculos de la página web del BDFL. En el proceso, te harás muy amigo del método de la sopa find_all().

Este ejercicio forma parte del curso

Importación de datos intermedios en Python

Ver curso

Instrucciones del ejercicio

  • Utiliza el método find_all() para encontrar todos los hipervínculos en soup, recordando que los hipervínculos se definen mediante la etiqueta HTML <a> pero se pasan a find_all() sin corchetes angulares; almacena el resultado en la variable a_tags.
  • La variable a_tags es un conjunto de resultados: ahora tu trabajo consiste en enumerarlo, utilizando un bucle « for » (recorrer), e imprimir las URL reales de los hipervínculos; para ello, por cada elemento link en a_tags, debes hacer lo siguiente: print() link.get('href').

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____
Editar y ejecutar código