IniziaInizia gratis

Eseguire query su una vista temporanea

In questo esercizio farai pratica nel registrare un DataFrame come vista SQL temporanea in PySpark. Le viste temporanee sono strumenti potenti che ti permettono di interrogare i dati con sintassi SQL, rendendo le manipolazioni complesse più semplici e intuitive. Il tuo obiettivo è creare una vista a partire da un DataFrame fornito ed eseguire query SQL su di essa, un'attività comune nel lavoro ETL ed ELT.

Nel tuo ambiente sono già disponibili uno SparkContext, spark, e un DataFrame PySpark, df.

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Registra una nuova vista chiamata "data_view" dal DataFrame df.
  • Esegui la query SQL fornita per calcolare il salario totale per posizione.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Register as a view
df.____("data_view")

# Advanced SQL query: Calculate total salary by Position
result = ____("""
    SELECT Position, SUM(Salary) AS Total_Salary
    FROM data_view
    GROUP BY Position
    ORDER BY Total_Salary DESC
    """
)
result.show()
Modifica ed esegui il codice