Een webpagina omzetten naar data met BeautifulSoup: de hyperlinks ophalen
In deze oefening ga je de URL’s van de hyperlinks op de webpagina van de BDFL extraheren. Daarbij maak je goed kennis met de soup-methode find_all().
Deze oefening maakt deel uit van de cursus
Gevorderd data importeren in Python
Oefeninstructies
- Gebruik de methode
find_all()om alle hyperlinks insoupte vinden. Onthoud dat hyperlinks worden gedefinieerd door de HTML-tag<a>, maar dat je deze zonder punthaken doorgeeft aanfind_all(); sla het resultaat op in de variabelea_tags. - De variabele
a_tagsis een resultaatset: jouw taak is nu om hierover te itereren met eenfor-loop en de daadwerkelijke URL’s van de hyperlinks af te drukken. Doe dit door voor elk elementlinkina_tagsprint()aan te roepen metlink.get('href').
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extracts the response as html: html_doc
html_doc = r.text
# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)
# Print the title of Guido's webpage
print(soup.title)
# Find all 'a' tags (which define hyperlinks): a_tags
# Print the URLs to the shell
for ____ in ____:
____