Consultar sobre una vista temporal
En este ejercicio, practicarás cómo registrar un DataFrame como una vista SQL temporal en PySpark. Las vistas temporales son muy útiles porque te permiten consultar datos con sintaxis SQL, lo que facilita y hace más intuitivas las transformaciones complejas. Tu objetivo es crear una vista a partir de un DataFrame proporcionado y ejecutar consultas SQL sobre ella, una tarea muy habitual en trabajos de ETL y ELT.
Ya tienes disponible en tu espacio de trabajo un SparkContext, spark, y un DataFrame de PySpark, df.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Registra una nueva vista llamada
"data_view"a partir del DataFramedf. - Ejecuta la consulta SQL proporcionada para calcular el salario total por puesto.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Register as a view
df.____("data_view")
# Advanced SQL query: Calculate total salary by Position
result = ____("""
SELECT Position, SUM(Salary) AS Total_Salary
FROM data_view
GROUP BY Position
ORDER BY Total_Salary DESC
"""
)
result.show()