HTML parsen met BeautifulSoup

In deze interactieve oefening leer je hoe je met het pakket BeautifulSoup informatie uit HTML kunt parsen, opmaken en extracten. Je gaat data scrapen van de webpagina van Guido van Rossum, Python’s eigen Benevolent Dictator for Life. In de volgende oefeningen formatteer je eerst de HTML netjes en haal je daarna de tekst en de hyperlinks eruit.

De URL waar je mee werkt is url = 'https://www.python.org/~guido/'.

Deze oefening maakt deel uit van de cursus

Gevorderd data importeren in Python

Bekijk cursus

Oefeninstructies

Importeer de functie BeautifulSoup uit het pakket bs4.
Ken de URL waar je mee werkt toe aan de variabele url.
Maak het verzoek naar de URL, verstuur het en vang de response op met één functie requests.get(), en wijs de response toe aan de variabele r.
Gebruik de eigenschap text van het object r om de HTML van de webpagina als string op te halen; sla het resultaat op in een variabele html_doc.
Maak een BeautifulSoup-object soup van de verkregen HTML met de functie BeautifulSoup().
Gebruik de methode prettify() op soup en ken het resultaat toe aan pretty_soup.
Klik op Antwoord verzenden om de netjes geformatteerde HTML in je shell af te drukken!

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)

Code bewerken en uitvoeren