Eine Webseite mit BeautifulSoup in Daten verwandeln: den Text extrahieren
Wie versprochen lernst du in den nächsten Übungen die Grundlagen, um Informationen aus HTML-Suppe zu extrahieren. In dieser Übung findest du heraus, wie du den Text von der Webseite des BDFL extrahierst und zusätzlich den Titel der Seite ausgibst.
Diese Übung ist Teil des Kurses
Importing Data in Python (Fortgeschritten)
Anleitung zur Übung
- Im Beispielcode wurde das HTML-Response-Objekt
html_docbereits erstellt: Deine erste Aufgabe ist, es mit der FunktionBeautifulSoup()in eine Suppe zu verwandeln und die resultierende Suppe der Variablensoupzuzuweisen. - Extrahiere den Titel aus der HTML-Suppe
soupüber das Attributtitleund weise das Ergebnisguido_titlezu. - Gib den Titel von Guidos Webseite in der Shell mit der Funktion
print()aus. - Extrahiere den Text aus der HTML-Suppe
soupmit der Methodeget_text()und weise ihnguido_textzu. - Klicke auf Antwort senden, um den Text von Guidos Webseite in der Shell auszugeben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)