Eseguire query su una vista temporanea
In questo esercizio farai pratica nel registrare un DataFrame come vista SQL temporanea in PySpark. Le viste temporanee sono strumenti potenti che ti permettono di interrogare i dati con sintassi SQL, rendendo le manipolazioni complesse più semplici e intuitive. Il tuo obiettivo è creare una vista a partire da un DataFrame fornito ed eseguire query SQL su di essa, un'attività comune nel lavoro ETL ed ELT.
Nel tuo ambiente sono già disponibili uno SparkContext, spark, e un DataFrame PySpark, df.
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Registra una nuova vista chiamata
"data_view"dal DataFramedf. - Esegui la query SQL fornita per calcolare il salario totale per posizione.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Register as a view
df.____("data_view")
# Advanced SQL query: Calculate total salary by Position
result = ____("""
SELECT Position, SUM(Salary) AS Total_Salary
FROM data_view
GROUP BY Position
ORDER BY Total_Salary DESC
"""
)
result.show()