Juntando tudo II
Crie um DataFrame, aplique transformações, coloque-o em cache e verifique se ele foi armazenado em cache. Depois, remova-o do cache para liberar memória.
Para este exercício, uma sessão spark já foi criada para você! Observe com atenção a saída do método .explain() para entender qual é o resultado!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Coloque o DataFrame
dfem cache. - Explique o processamento do DataFrame
agg_result. - Remova do cache (unpersist) o DataFrame
dfapós o processamento.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Cache the DataFrame
df.____
# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()
# Analyze the execution plan
agg_result.____
# Uncache the DataFrame
df.____