ComenzarEmpieza gratis

Consultar sobre una vista temporal

En este ejercicio, practicarás cómo registrar un DataFrame como una vista SQL temporal en PySpark. Las vistas temporales son muy útiles porque te permiten consultar datos con sintaxis SQL, lo que facilita y hace más intuitivas las transformaciones complejas. Tu objetivo es crear una vista a partir de un DataFrame proporcionado y ejecutar consultas SQL sobre ella, una tarea muy habitual en trabajos de ETL y ELT.

Ya tienes disponible en tu espacio de trabajo un SparkContext, spark, y un DataFrame de PySpark, df.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Registra una nueva vista llamada "data_view" a partir del DataFrame df.
  • Ejecuta la consulta SQL proporcionada para calcular el salario total por puesto.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Register as a view
df.____("data_view")

# Advanced SQL query: Calculate total salary by Position
result = ____("""
    SELECT Position, SUM(Salary) AS Total_Salary
    FROM data_view
    GROUP BY Position
    ORDER BY Total_Salary DESC
    """
)
result.show()
Editar y ejecutar código