Eine Webseite mit BeautifulSoup in Daten verwandeln: den Text erhalten

Wie versprochen, lernst du in den folgenden Übungen die Grundlagen, um Informationen aus der HTML Suppe zu extrahieren. In dieser Übung findest du heraus, wie du den Text von der Webseite BDFL extrahieren und den Titel der Webseite ausdrucken kannst.

Diese Übung ist Teil des Kurses

Daten in Python importieren für fortgeschrittene Anfänger

Kurs anzeigen

Anleitung zur Übung

  • Im Beispielcode wurde das Antwortobjekt HTML html_doc bereits erstellt: Deine erste Aufgabe besteht darin, es mit der Funktion BeautifulSoup() zu soupifizieren und die resultierende Soup der Variablen soup zuzuweisen.
  • Extrahiere den Titel aus der HTML Suppe soup mit Hilfe des Attributs title und weise das Ergebnis guido_title zu.
  • Gib den Titel von Guidos Webseite mit der Funktion print() in der Shell aus.
  • Extrahiere den Text aus der HTML Suppe soup mit der Methode get_text() und ordne ihn guido_text zu.
  • Klicke auf "Senden", um den Text von Guidos Webseite in die Shell zu drucken.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)