Parsing HTML mit BeautifulSoup
In dieser interaktiven Übung lernst du, wie du das BeautifulSoup-Paket verwendest, um Informationen aus HTMLzu parsen, zu verschönern und zu extrahieren. Du klaust die Daten von der Webseite von Guido van Rossum, Pythons gütigem Diktator auf Lebenszeit. In den folgenden Übungen wirst du die HTML aufhübschen und dann den Text und die Hyperlinks extrahieren.
Die URL von Interesse ist url = 'https://www.python.org/~guido/'
.
Diese Übung ist Teil des Kurses
Daten in Python importieren für fortgeschrittene Anfänger
Anleitung zur Übung
- Importiere die Funktion
BeautifulSoup
aus dem Paketbs4
. - Weisen Sie der Variablen
url
die URL von Interesse zu. - Verpacke die Anfrage auf URL, sende die Anfrage und fange die Antwort mit einer einzigen Funktion
requests.get()
ab, wobei die Antwort der Variablenr
zugewiesen wird. - Verwende das Attribut
text
des Objektsr
, um die HTML der Webseite als String zurückzugeben; speichere das Ergebnis in einer Variablenhtml_doc
. - Erstelle ein BeautifulSoup-Objekt
soup
aus dem Ergebnis HTML mit der FunktionBeautifulSoup()
. - Verwende die Methode
prettify()
aufsoup
und weise das Ergebnispretty_soup
zu. - Klicke auf "Abschicken", um HTML in deiner Hülle zu drucken!
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)