Eine Webseite mit BeautifulSoup in Daten verwandeln: die Hyperlinks erhalten

In dieser Übung findest du heraus, wie du die URLder Hyperlinks von der Webseite BDFL extrahieren kannst. Dabei wirst du dich mit der Suppenmethode find_all() anfreunden.

Diese Übung ist Teil des Kurses

Daten in Python importieren für fortgeschrittene Anfänger

Anleitung zur Übung

Benutze die Methode find_all(), um alle Hyperlinks in soup zu finden. Beachte dabei, dass Hyperlinks durch den Tag HTML <a> definiert sind, aber ohne spitze Klammern an find_all() übergeben werden; speichere das Ergebnis in der Variablen a_tags.
Die Variable a_tags ist eine Ergebnismenge: Deine Aufgabe ist es nun, sie mit Hilfe einer for Schleife aufzuzählen und die tatsächlichen URLs der Hyperlinks auszugeben; dazu willst du für jedes Element link in a_tags print() link.get('href') .

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Daten in Python importieren für fortgeschrittene Anfänger

Geringe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Das Internet ist eine reichhaltige Datenquelle, aus der du verschiedene Arten von Einsichten und Erkenntnissen gewinnen kannst. In diesem Kapitel lernst du, wie du Daten aus dem Web abrufen kannst, egal ob sie in Dateien oder in HTML gespeichert sind. Außerdem lernst du die Grundlagen des Scrapens und Parsens von Webdaten.

Exercise 1: Importieren von Flat Files aus dem Web Exercise 2: Importieren von Flat Files aus dem Web: Du bist dran!Exercise 3: Öffnen und Lesen von Flat Files aus dem Web Exercise 4: Importieren von nicht-flachen Dateien aus dem Web Exercise 5: HTTP Anfragen zum Importieren von Dateien aus dem Web Exercise 6: Durchführen von HTTP Anfragen in Python mit urllib Exercise 7: Drucken von HTTP Anfrageergebnissen in Python mit urllib Exercise 8: Ausführen von HTTP Anfragen in Python mit requests Exercise 9: Scraping des Webs in Python Exercise 10: Parsing HTML mit BeautifulSoup Exercise 11: Eine Webseite mit BeautifulSoup in Daten verwandeln: den Text erhalten Exercise 12: Eine Webseite mit BeautifulSoup in Daten verwandeln: die Hyperlinks erhalten

Aktuelle Übung

In diesem Kapitel erfährst du, wie du Daten aus dem Internet importieren kannst. Du lernst die Grundlagen des Extrahierens von Daten aus APIs, erhältst Einblicke in die Bedeutung von APIs und übst das Extrahieren von Daten, indem du in die OMDB und Library of Congress APIs eintauchst.

Exercise 1: Einführung in APIs und JSONs Exercise 2: Quizfrage: Was genau ist JSON?Exercise 3: Laden und Erkunden einer JSON Exercise 4: Quizfrage: Erforsche deine JSON Exercise 5: APIs und die Interaktion mit dem World Wide Web Exercise 6: Quizfrage: Was ist eine API?Exercise 7: API Anfragen Exercise 8: JSON-vom Web zu Python Exercise 9: Ein Blick in die Wikipedia API

In diesem Kapitel vertiefst du dein Wissen über die Interaktion mit APIin einem tiefen Einblick in das Twitter-Streaming API. Du lernst, wie du Twitter-Daten in Echtzeit streamst und wie du sie analysierst und visualisierst.

Exercise 1: Der Twitter API und die Authentifizierung Exercise 2: Tweets streamen Exercise 3: Lade und erkunde deine Twitter-Daten Exercise 4: Twitter-Daten in DataFrame Exercise 5: Ein bisschen Twitter-Textanalyse Exercise 6: Plotten deiner Twitter-Daten Exercise 7: Abschließende Gedanken