HTML mit BeautifulSoup parsen

In dieser interaktiven Übung lernst du, wie du mit dem Paket BeautifulSoup HTML parsen, formatieren („prettify“) und Informationen extrahieren kannst. Du scrapest die Daten von der Webseite von Guido van Rossum, Pythons eigenem Benevolent Dictator for Life. In den folgenden Übungen formatierst du das HTML und extrahierst anschließend den Text und die Hyperlinks.

Die relevante URL ist url = 'https://www.python.org/~guido/'.

Diese Übung ist Teil des Kurses

<Kurs>Importing Data in Python (Fortgeschritten)</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere die Funktion BeautifulSoup aus dem Paket bs4.
Weise die relevante URL der Variablen url zu.
Verpacke die Anfrage an die URL, sende sie und fange die Antwort mit der einzelnen Funktion requests.get() ab; speichere die Antwort in der Variablen r.
Verwende das Attribut text des Objekts r, um das HTML der Webseite als String zu erhalten; speichere das Ergebnis in der Variablen html_doc.
Erzeuge mit der Funktion BeautifulSoup() aus dem resultierenden HTML ein BeautifulSoup-Objekt soup.
Verwende die Methode prettify() auf soup und weise das Ergebnis pretty_soup zu.
Klicke auf Antwort senden, um das formatierte HTML in deinem Terminal auszugeben!

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)

Code bearbeiten und ausführen