Eine Webseite mit BeautifulSoup in Daten verwandeln: die Hyperlinks erhalten

In dieser Übung findest du heraus, wie du die URLder Hyperlinks von der Webseite BDFL extrahieren kannst. Dabei wirst du dich mit der Suppenmethode find_all() anfreunden.

Diese Übung ist Teil des Kurses

Daten in Python importieren für fortgeschrittene Anfänger

Kurs anzeigen

Anleitung zur Übung

  • Benutze die Methode find_all(), um alle Hyperlinks in soup zu finden. Beachte dabei, dass Hyperlinks durch den Tag HTML <a> definiert sind, aber ohne spitze Klammern an find_all() übergeben werden; speichere das Ergebnis in der Variablen a_tags.
  • Die Variable a_tags ist eine Ergebnismenge: Deine Aufgabe ist es nun, sie mit Hilfe einer for Schleife aufzuzählen und die tatsächlichen URLs der Hyperlinks auszugeben; dazu willst du für jedes Element link in a_tags print() link.get('href') .

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____