HTML parsen met BeautifulSoup
In deze interactieve oefening leer je hoe je met het pakket BeautifulSoup informatie uit HTML kunt parsen, opmaken en extracten. Je gaat data scrapen van de webpagina van Guido van Rossum, Python’s eigen Benevolent Dictator for Life. In de volgende oefeningen formatteer je eerst de HTML netjes en haal je daarna de tekst en de hyperlinks eruit.
De URL waar je mee werkt is url = 'https://www.python.org/~guido/'.
Deze oefening maakt deel uit van de cursus
Gevorderd data importeren in Python
Oefeninstructies
- Importeer de functie
BeautifulSoupuit het pakketbs4. - Ken de URL waar je mee werkt toe aan de variabele
url. - Maak het verzoek naar de URL, verstuur het en vang de response op met één functie
requests.get(), en wijs de response toe aan de variabeler. - Gebruik de eigenschap
textvan het objectrom de HTML van de webpagina als string op te halen; sla het resultaat op in een variabelehtml_doc. - Maak een BeautifulSoup-object
soupvan de verkregen HTML met de functieBeautifulSoup(). - Gebruik de methode
prettify()opsoupen ken het resultaat toe aanpretty_soup. - Klik op Antwoord verzenden om de netjes geformatteerde HTML in je shell af te drukken!
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)