Trasformare una pagina web in dati con BeautifulSoup: ottenere gli hyperlink
In questo esercizio imparerai a estrarre gli URL degli hyperlink dalla pagina web del BDFL. Nel farlo, diventerai molto pratico con il metodo find_all() di soup.
Questo esercizio fa parte del corso
Importazione di dati in Python - livello intermedio
Istruzioni dell'esercizio
- Usa il metodo
find_all()per trovare tutti gli hyperlink insoup, ricordando che gli hyperlink sono definiti dal tag HTML<a>ma vanno passati afind_all()senza parentesi angolari; salva il risultato nella variabilea_tags. - La variabile
a_tagsè un insieme di risultati: ora il tuo compito è scorrerlo con un ciclofore stampare gli URL effettivi degli hyperlink; per farlo, per ogni elementolinkina_tags, eseguiprint()dilink.get('href').
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extracts the response as html: html_doc
html_doc = r.text
# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)
# Print the title of Guido's webpage
print(soup.title)
# Find all 'a' tags (which define hyperlinks): a_tags
# Print the URLs to the shell
for ____ in ____:
____