LoslegenKostenlos loslegen

Eine Webseite mit BeautifulSoup in Daten verwandeln: die Hyperlinks auslesen

In dieser Übung findest du heraus, wie du die URLs der Hyperlinks von der Webseite des BDFL extrahierst. Dabei wirst du dich mit der Soup-Methode find_all() richtig anfreunden.

Diese Übung ist Teil des Kurses

Importing Data in Python (Fortgeschritten)

Kurs anzeigen

Anleitung zur Übung

  • Verwende die Methode find_all(), um alle Hyperlinks in soup zu finden. Denk daran: Hyperlinks sind durch das HTML-Tag <a> definiert, werden aber an find_all() ohne spitze Klammern übergeben. Speichere das Ergebnis in der Variable a_tags.
  • Die Variable a_tags ist eine Ergebnismenge. Deine Aufgabe ist jetzt, mit einer for-Schleife darüber zu iterieren und die tatsächlichen URLs der Hyperlinks auszugeben. Dafür willst du für jedes Element link in a_tags print() mit link.get('href') aufrufen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____
Code bearbeiten und ausführen