IniziaInizia gratis

Trasformare una pagina web in dati con BeautifulSoup: ottenere gli hyperlink

In questo esercizio imparerai a estrarre gli URL degli hyperlink dalla pagina web del BDFL. Nel farlo, diventerai molto pratico con il metodo find_all() di soup.

Questo esercizio fa parte del corso

Importazione di dati in Python - livello intermedio

Visualizza il corso

Istruzioni dell'esercizio

  • Usa il metodo find_all() per trovare tutti gli hyperlink in soup, ricordando che gli hyperlink sono definiti dal tag HTML <a> ma vanno passati a find_all() senza parentesi angolari; salva il risultato nella variabile a_tags.
  • La variabile a_tags è un insieme di risultati: ora il tuo compito è scorrerlo con un ciclo for e stampare gli URL effettivi degli hyperlink; per farlo, per ogni elemento link in a_tags, esegui print() di link.get('href').

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____
Modifica ed esegui il codice