Convertir una página web en datos con BeautifulSoup: obtener los hipervínculos

En este ejercicio, aprenderás a extraer las URL de los hipervínculos de la página web del BDFL. En el proceso, te harás muy amigo del método de la sopa find_all().

Este ejercicio forma parte del curso

Importación de datos intermedios en Python

Instrucciones del ejercicio

Utiliza el método find_all() para encontrar todos los hipervínculos en soup, recordando que los hipervínculos se definen mediante la etiqueta HTML <a> pero se pasan a find_all() sin corchetes angulares; almacena el resultado en la variable a_tags.
La variable a_tags es un conjunto de resultados: ahora tu trabajo consiste en enumerarlo, utilizando un bucle « for » (recorrer), e imprimir las URL reales de los hipervínculos; para ello, por cada elemento link en a_tags, debes hacer lo siguiente: print() link.get('href').

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____

Editar y ejecutar código

Este ejercicio forma parte del curso

Importación de datos intermedios en Python

PrincipianteNivel de habilidad

4.8+

Comienza el curso gratis

La web es una rica fuente de datos de la que puedes extraer diversos tipos de información y conclusiones. En este capítulo, aprenderás a obtener datos de la web, ya sea que estén almacenados en archivos o en HTML. También aprenderás los conceptos básicos del scraping y el análisis sintáctico de datos web.

Exercise 1: Importación de archivos planos desde la web Exercise 2: Importación de archivos planos desde la web: ¡te toca!Exercise 3: Abrir y leer archivos planos desde la web Exercise 4: Importación de archivos no planos desde la web Exercise 5: Solicitudes HTTP para importar archivos desde la web Exercise 6: Realizar solicitudes HTTP en Python utilizando urllib Exercise 7: Imprimir los resultados de una solicitud HTTP en Python utilizando urllib Exercise 8: Realizar solicitudes HTTP en Python utilizando requests Exercise 9: Rastreando la web en Python Exercise 10: Analizar HTML con BeautifulSoup Exercise 11: Convertir una página web en datos con BeautifulSoup: obtener el texto Exercise 12: Convertir una página web en datos con BeautifulSoup: obtener los hipervínculos

Ejercicio actual

En este capítulo, obtendrás una comprensión más profunda de cómo importar datos desde la web. Aprenderás los conceptos básicos para extraer datos de las API, comprenderás la importancia de las API y practicarás la extracción de datos sumergiéndote en las API de OMDB y de la Biblioteca del Congreso.

Exercise 1: Introducción a las API y los JSON Exercise 2: Examen sorpresa: ¿Qué es exactamente un JSON?Exercise 3: Cargar y explorar un JSON Exercise 4: Examen sorpresa: Explorando tu JSON Exercise 5: Las API y la interacción con la World Wide Web Exercise 6: Examen sorpresa: ¿Qué es una API?Exercise 7: Solicitudes API Exercise 8: JSON: de la web a Python Exercise 9: Comprobando la API de Wikipedia

En este capítulo, consolidarás tus conocimientos sobre la interacción con las API mediante un análisis en profundidad de la API de streaming de Twitter. Aprenderás a transmitir datos de Twitter en tiempo real, así como a analizarlos y visualizarlos.

Exercise 1: La API y la autenticación de Twitter Exercise 2: Transmisión de tweets Exercise 3: Carga y explora tus datos de Twitter Exercise 4: Datos de Twitter a DataFrame Exercise 5: Un poco de análisis de texto en Twitter Exercise 6: Gráficando tus datos de Twitter Exercise 7: Reflexiones finales