Erste SchritteKostenlos loslegen

Parsing HTML mit BeautifulSoup

In dieser interaktiven Übung lernst du, wie du das BeautifulSoup-Paket verwendest, um Informationen aus HTMLzu parsen, zu verschönern und zu extrahieren. Du klaust die Daten von der Webseite von Guido van Rossum, Pythons gütigem Diktator auf Lebenszeit. In den folgenden Übungen wirst du die HTML aufhübschen und dann den Text und die Hyperlinks extrahieren.

Die URL von Interesse ist url = 'https://www.python.org/~guido/'.

Diese Übung ist Teil des Kurses

Daten in Python importieren für fortgeschrittene Anfänger

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Funktion BeautifulSoup aus dem Paket bs4.
  • Weisen Sie der Variablen url die URL von Interesse zu.
  • Verpacke die Anfrage auf URL, sende die Anfrage und fange die Antwort mit einer einzigen Funktion requests.get() ab, wobei die Antwort der Variablen r zugewiesen wird.
  • Verwende das Attribut text des Objekts r, um die HTML der Webseite als String zurückzugeben; speichere das Ergebnis in einer Variablen html_doc.
  • Erstelle ein BeautifulSoup-Objekt soup aus dem Ergebnis HTML mit der Funktion BeautifulSoup().
  • Verwende die Methode prettify() auf soup und weise das Ergebnis pretty_soup zu.
  • Klicke auf "Abschicken", um HTML in deiner Hülle zu drucken!

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)
Bearbeiten und Ausführen von Code