Eine Webseite mit BeautifulSoup in Daten verwandeln: die Hyperlinks auslesen
In dieser Übung findest du heraus, wie du die URLs der Hyperlinks von der Webseite des BDFL extrahierst. Dabei wirst du dich mit der Soup-Methode find_all() richtig anfreunden.
Diese Übung ist Teil des Kurses
Importing Data in Python (Fortgeschritten)
Anleitung zur Übung
- Verwende die Methode
find_all(), um alle Hyperlinks insoupzu finden. Denk daran: Hyperlinks sind durch das HTML-Tag<a>definiert, werden aber anfind_all()ohne spitze Klammern übergeben. Speichere das Ergebnis in der Variablea_tags. - Die Variable
a_tagsist eine Ergebnismenge. Deine Aufgabe ist jetzt, mit einerfor-Schleife darüber zu iterieren und die tatsächlichen URLs der Hyperlinks auszugeben. Dafür willst du für jedes Elementlinkina_tagsprint()mitlink.get('href')aufrufen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extracts the response as html: html_doc
html_doc = r.text
# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)
# Print the title of Guido's webpage
print(soup.title)
# Find all 'a' tags (which define hyperlinks): a_tags
# Print the URLs to the shell
for ____ in ____:
____