Query uitvoeren op een tijdelijke view
In deze oefening ga je een DataFrame registreren als een tijdelijke SQL-view in PySpark. Tijdelijke views zijn krachtige hulpmiddelen waarmee je data kunt bevragen met SQL-syntaxis, waardoor complexe bewerkingen eenvoudiger en intuïtiever worden. Je doel is om een view te maken van een gegeven DataFrame en er SQL-queries op uit te voeren, een veelvoorkomende taak in ETL- en ELT-werk.
Je hebt al een SparkContext, spark, en een PySpark DataFrame, df, in je werkruimte.
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Registreer een nieuwe view met de naam
"data_view"op basis van het DataFramedf. - Voer de meegeleverde SQL-query uit om het totale salaris per functie te berekenen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Register as a view
df.____("data_view")
# Advanced SQL query: Calculate total salary by Position
result = ____("""
SELECT Position, SUM(Salary) AS Total_Salary
FROM data_view
GROUP BY Position
ORDER BY Total_Salary DESC
"""
)
result.show()