Een webpagina omzetten naar data met BeautifulSoup: de tekst ophalen
Zoals beloofd leer je in de volgende oefeningen de basis van informatie halen uit HTML-soup. In deze oefening ga je uitzoeken hoe je de tekst van de webpagina van de BDFL kunt ophalen en de titel van de pagina kunt afdrukken.
Deze oefening maakt deel uit van de cursus
Gevorderd data importeren in Python
Oefeninstructies
- In de voorbeeldcode is het HTML response object
html_docal aangemaakt: jouw eerste taak is om het te 'soupen' met de functieBeautifulSoup()en de resulterende soup toe te wijzen aan de variabelesoup. - Haal de titel uit de HTML-soup
soupmet het attribuuttitleen wijs het resultaat toe aanguido_title. - Print de titel van Guido's webpagina naar de shell met de functie
print(). - Haal de tekst uit de HTML-soup
soupmet de methodeget_text()en wijs deze toe aanguido_text. - Klik op Antwoord verzenden om de tekst van Guido's webpagina naar de shell te printen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)