Aan de slagGa gratis aan de slag

Een webpagina omzetten naar data met BeautifulSoup: de hyperlinks ophalen

In deze oefening ga je de URL’s van de hyperlinks op de webpagina van de BDFL extraheren. Daarbij maak je goed kennis met de soup-methode find_all().

Deze oefening maakt deel uit van de cursus

Gevorderd data importeren in Python

Cursus bekijken

Oefeninstructies

  • Gebruik de methode find_all() om alle hyperlinks in soup te vinden. Onthoud dat hyperlinks worden gedefinieerd door de HTML-tag <a>, maar dat je deze zonder punthaken doorgeeft aan find_all(); sla het resultaat op in de variabele a_tags.
  • De variabele a_tags is een resultaatset: jouw taak is nu om hierover te itereren met een for-loop en de daadwerkelijke URL’s van de hyperlinks af te drukken. Doe dit door voor elk element link in a_tags print() aan te roepen met link.get('href').

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____
Code bewerken en uitvoeren