Interroger une vue temporaire
Dans cet exercice, vous allez vous entraîner à enregistrer un DataFrame comme vue SQL temporaire dans PySpark. Les vues temporaires sont très pratiques : elles vous permettent d’interroger les données avec la syntaxe SQL, ce qui rend les manipulations complexes plus simples et plus intuitives. Votre objectif est de créer une vue à partir d’un DataFrame fourni et d’exécuter des requêtes SQL dessus, une tâche courante en ETL et ELT.
Vous disposez déjà d’un SparkContext, spark, et d’un DataFrame PySpark, df, dans votre environnement de travail.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Enregistrez une nouvelle vue appelée
"data_view"à partir du DataFramedf. - Exécutez la requête SQL fournie pour calculer le salaire total par poste.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Register as a view
df.____("data_view")
# Advanced SQL query: Calculate total salary by Position
result = ____("""
SELECT Position, SUM(Salary) AS Total_Salary
FROM data_view
GROUP BY Position
ORDER BY Total_Salary DESC
"""
)
result.show()