Eine Webseite mit BeautifulSoup in Daten verwandeln: den Text erhalten
Wie versprochen, lernst du in den folgenden Übungen die Grundlagen, um Informationen aus der HTML Suppe zu extrahieren. In dieser Übung findest du heraus, wie du den Text von der Webseite BDFL extrahieren und den Titel der Webseite ausdrucken kannst.
Diese Übung ist Teil des Kurses
Daten in Python importieren für fortgeschrittene Anfänger
Anleitung zur Übung
- Im Beispielcode wurde das Antwortobjekt HTML
html_doc
bereits erstellt: Deine erste Aufgabe besteht darin, es mit der FunktionBeautifulSoup()
zu soupifizieren und die resultierende Soup der Variablensoup
zuzuweisen. - Extrahiere den Titel aus der HTML Suppe
soup
mit Hilfe des Attributstitle
und weise das Ergebnisguido_title
zu. - Gib den Titel von Guidos Webseite mit der Funktion
print()
in der Shell aus. - Extrahiere den Text aus der HTML Suppe
soup
mit der Methodeget_text()
und ordne ihnguido_text
zu. - Klicke auf "Senden", um den Text von Guidos Webseite in die Shell zu drucken.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)