Eine Webseite mit BeautifulSoup in Daten verwandeln: die Hyperlinks erhalten
In dieser Übung findest du heraus, wie du die URLder Hyperlinks von der Webseite BDFL extrahieren kannst. Dabei wirst du dich mit der Suppenmethode find_all()
anfreunden.
Diese Übung ist Teil des Kurses
Daten in Python importieren für fortgeschrittene Anfänger
Anleitung zur Übung
- Benutze die Methode
find_all()
, um alle Hyperlinks insoup
zu finden. Beachte dabei, dass Hyperlinks durch den Tag HTML<a>
definiert sind, aber ohne spitze Klammern anfind_all()
übergeben werden; speichere das Ergebnis in der Variablena_tags
. - Die Variable
a_tags
ist eine Ergebnismenge: Deine Aufgabe ist es nun, sie mit Hilfe einerfor
Schleife aufzuzählen und die tatsächlichen URLs der Hyperlinks auszugeben; dazu willst du für jedes Elementlink
ina_tags
print()
link.get('href')
.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extracts the response as html: html_doc
html_doc = r.text
# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)
# Print the title of Guido's webpage
print(soup.title)
# Find all 'a' tags (which define hyperlinks): a_tags
# Print the URLs to the shell
for ____ in ____:
____