LoslegenKostenlos loslegen

Abfrage einer temporären View

In dieser Übung übst du, ein DataFrame in PySpark als temporäre SQL-View zu registrieren. Temporäre Views sind mächtige Werkzeuge, mit denen du Daten per SQL-Syntax abfragen kannst – so werden komplexe Datenmanipulationen einfacher und intuitiver. Dein Ziel ist es, aus einem gegebenen DataFrame eine View zu erstellen und SQL-Abfragen darauf auszuführen – eine typische Aufgabe in ETL- und ELT-Workflows.

In deinem Workspace stehen dir bereits ein SparkContext spark und ein PySpark-DataFrame df zur Verfügung.

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Registriere eine neue View namens "data_view" aus dem DataFrame df.
  • Führe die bereitgestellte SQL-Abfrage aus, um das gesamte Gehalt pro Position zu berechnen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Register as a view
df.____("data_view")

# Advanced SQL query: Calculate total salary by Position
result = ____("""
    SELECT Position, SUM(Salary) AS Total_Salary
    FROM data_view
    GROUP BY Position
    ORDER BY Total_Salary DESC
    """
)
result.show()
Code bearbeiten und ausführen