Abfrage einer temporären View
In dieser Übung übst du, ein DataFrame in PySpark als temporäre SQL-View zu registrieren. Temporäre Views sind mächtige Werkzeuge, mit denen du Daten per SQL-Syntax abfragen kannst – so werden komplexe Datenmanipulationen einfacher und intuitiver. Dein Ziel ist es, aus einem gegebenen DataFrame eine View zu erstellen und SQL-Abfragen darauf auszuführen – eine typische Aufgabe in ETL- und ELT-Workflows.
In deinem Workspace stehen dir bereits ein SparkContext spark und ein PySpark-DataFrame df zur Verfügung.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Registriere eine neue View namens
"data_view"aus dem DataFramedf. - Führe die bereitgestellte SQL-Abfrage aus, um das gesamte Gehalt pro Position zu berechnen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Register as a view
df.____("data_view")
# Advanced SQL query: Calculate total salary by Position
result = ____("""
SELECT Position, SUM(Salary) AS Total_Salary
FROM data_view
GROUP BY Position
ORDER BY Total_Salary DESC
"""
)
result.show()