Consultando uma temp view
Neste exercício, você vai praticar como registrar um DataFrame como uma view SQL temporária no PySpark. As views temporárias são ferramentas poderosas que permitem consultar dados usando sintaxe SQL, tornando manipulações complexas mais simples e intuitivas. Seu objetivo é criar uma view a partir de um DataFrame fornecido e executar consultas SQL sobre ela, uma tarefa comum em trabalhos de ETL e ELT.
Você já tem um SparkContext, spark, e um DataFrame do PySpark, df, disponíveis no seu ambiente de trabalho.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Registre uma nova view chamada
"data_view"a partir do DataFramedf. - Execute a consulta SQL fornecida para calcular o salário total por cargo.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Register as a view
df.____("data_view")
# Advanced SQL query: Calculate total salary by Position
result = ____("""
SELECT Position, SUM(Salary) AS Total_Salary
FROM data_view
GROUP BY Position
ORDER BY Total_Salary DESC
"""
)
result.show()