LoslegenKostenlos loslegen

Abfragen auf einer temporären View

In dieser Übung registrierst du ein DataFrame als temporäre SQL-View in PySpark. Temporäre Views sind hilfreiche Werkzeuge, mit denen du Daten per SQL-Syntax abfragen kannst – das macht komplexe Datenmanipulationen einfacher und intuitiver. Dein Ziel ist es, aus einem bereitgestellten DataFrame eine View zu erstellen und SQL-Abfragen darauf auszuführen – eine häufige Aufgabe in ETL- und ELT-Workflows.

Dir stehen bereits eine SparkContext-Instanz spark und ein PySpark-DataFrame df in deiner Arbeitsumgebung zur Verfügung.

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Registriere eine neue View namens "data_view" aus dem DataFrame df.
  • Führe die bereitgestellte SQL-Abfrage aus, um das Gesamtgehalt pro Position zu berechnen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Register as a view
df.____("data_view")

# Advanced SQL query: Calculate total salary by Position
result = ____("""
    SELECT Position, SUM(Salary) AS Total_Salary
    FROM data_view
    GROUP BY Position
    ORDER BY Total_Salary DESC
    """
)
result.show()
Code bearbeiten und ausführen