Aan de slagGa gratis aan de slag

Een webpagina omzetten naar data met BeautifulSoup: de tekst ophalen

Zoals beloofd leer je in de volgende oefeningen de basis van informatie halen uit HTML-soup. In deze oefening ga je uitzoeken hoe je de tekst van de webpagina van de BDFL kunt ophalen en de titel van de pagina kunt afdrukken.

Deze oefening maakt deel uit van de cursus

Gevorderd data importeren in Python

Cursus bekijken

Oefeninstructies

  • In de voorbeeldcode is het HTML response object html_doc al aangemaakt: jouw eerste taak is om het te 'soupen' met de functie BeautifulSoup() en de resulterende soup toe te wijzen aan de variabele soup.
  • Haal de titel uit de HTML-soup soup met het attribuut title en wijs het resultaat toe aan guido_title.
  • Print de titel van Guido's webpagina naar de shell met de functie print().
  • Haal de tekst uit de HTML-soup soup met de methode get_text() en wijs deze toe aan guido_text.
  • Klik op Antwoord verzenden om de tekst van Guido's webpagina naar de shell te printen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)
Code bewerken en uitvoeren