ComeçarComece de graça

Consultando uma temp view

Neste exercício, você vai praticar como registrar um DataFrame como uma view SQL temporária no PySpark. As views temporárias são ferramentas poderosas que permitem consultar dados usando sintaxe SQL, tornando manipulações complexas mais simples e intuitivas. Seu objetivo é criar uma view a partir de um DataFrame fornecido e executar consultas SQL sobre ela, uma tarefa comum em trabalhos de ETL e ELT.

Você já tem um SparkContext, spark, e um DataFrame do PySpark, df, disponíveis no seu ambiente de trabalho.

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Registre uma nova view chamada "data_view" a partir do DataFrame df.
  • Execute a consulta SQL fornecida para calcular o salário total por cargo.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Register as a view
df.____("data_view")

# Advanced SQL query: Calculate total salary by Position
result = ____("""
    SELECT Position, SUM(Salary) AS Total_Salary
    FROM data_view
    GROUP BY Position
    ORDER BY Total_Salary DESC
    """
)
result.show()
Editar e executar o código