ComenzarEmpieza gratis

Juntándolo todo II

Crea un DataFrame, aplica transformaciones, guárdalo en caché y comprueba si está en caché. Luego, descárgalo de la caché para liberar memoria. ¡Para este ejercicio ya tienes creada una sesión spark! Fíjate bien en el resultado del método .explain() para entender qué está ocurriendo.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Guarda en caché el DataFrame df.
  • Explica el procesamiento del DataFrame agg_result.
  • Despersistiza (unpersist) el DataFrame df en caché después de procesarlo.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Cache the DataFrame
df.____

# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()

# Analyze the execution plan
agg_result.____

# Uncache the DataFrame
df.____
Editar y ejecutar código