Eine Webseite mit BeautifulSoup in Daten verwandeln: den Text extrahieren

Wie versprochen lernst du in den nächsten Übungen die Grundlagen, um Informationen aus HTML-Suppe zu extrahieren. In dieser Übung findest du heraus, wie du den Text von der Webseite des BDFL extrahierst und zusätzlich den Titel der Seite ausgibst.

Diese Übung ist Teil des Kurses

<Kurs>Importing Data in Python (Fortgeschritten)</Kurs>

Kurs ansehen

Übungsanweisungen

Im Beispielcode wurde das HTML-Response-Objekt html_doc bereits erstellt: Deine erste Aufgabe ist, es mit der Funktion BeautifulSoup() in eine Suppe zu verwandeln und die resultierende Suppe der Variablen soup zuzuweisen.
Extrahiere den Titel aus der HTML-Suppe soup über das Attribut title und weise das Ergebnis guido_title zu.
Gib den Titel von Guidos Webseite in der Shell mit der Funktion print() aus.
Extrahiere den Text aus der HTML-Suppe soup mit der Methode get_text() und weise ihn guido_text zu.
Klicke auf Antwort senden, um den Text von Guidos Webseite in der Shell auszugeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)

Code bearbeiten und ausführen