HTML mit BeautifulSoup parsen
In dieser interaktiven Übung lernst du, wie du mit dem Paket BeautifulSoup HTML parsen, formatieren („prettify“) und Informationen extrahieren kannst. Du scrapest die Daten von der Webseite von Guido van Rossum, Pythons eigenem Benevolent Dictator for Life. In den folgenden Übungen formatierst du das HTML und extrahierst anschließend den Text und die Hyperlinks.
Die relevante URL ist url = 'https://www.python.org/~guido/'.
Diese Übung ist Teil des Kurses
Importing Data in Python (Fortgeschritten)
Anleitung zur Übung
- Importiere die Funktion
BeautifulSoupaus dem Paketbs4. - Weise die relevante URL der Variablen
urlzu. - Verpacke die Anfrage an die URL, sende sie und fange die Antwort mit der einzelnen Funktion
requests.get()ab; speichere die Antwort in der Variablenr. - Verwende das Attribut
textdes Objektsr, um das HTML der Webseite als String zu erhalten; speichere das Ergebnis in der Variablenhtml_doc. - Erzeuge mit der Funktion
BeautifulSoup()aus dem resultierenden HTML ein BeautifulSoup-Objektsoup. - Verwende die Methode
prettify()aufsoupund weise das Ergebnispretty_soupzu. - Klicke auf Antwort senden, um das formatierte HTML in deinem Terminal auszugeben!
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)