Abfragen auf einer temporären View
In dieser Übung registrierst du ein DataFrame als temporäre SQL-View in PySpark. Temporäre Views sind hilfreiche Werkzeuge, mit denen du Daten per SQL-Syntax abfragen kannst – das macht komplexe Datenmanipulationen einfacher und intuitiver. Dein Ziel ist es, aus einem bereitgestellten DataFrame eine View zu erstellen und SQL-Abfragen darauf auszuführen – eine häufige Aufgabe in ETL- und ELT-Workflows.
Dir stehen bereits eine SparkContext-Instanz spark und ein PySpark-DataFrame df in deiner Arbeitsumgebung zur Verfügung.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Registriere eine neue View namens
"data_view"aus dem DataFramedf. - Führe die bereitgestellte SQL-Abfrage aus, um das Gesamtgehalt pro Position zu berechnen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Register as a view
df.____("data_view")
# Advanced SQL query: Calculate total salary by Position
result = ____("""
SELECT Position, SUM(Salary) AS Total_Salary
FROM data_view
GROUP BY Position
ORDER BY Total_Salary DESC
"""
)
result.show()