ComeçarComece de graça

Juntando tudo II

Crie um DataFrame, aplique transformações, coloque-o em cache e verifique se ele foi armazenado em cache. Depois, remova-o do cache para liberar memória. Para este exercício, uma sessão spark já foi criada para você! Observe com atenção a saída do método .explain() para entender qual é o resultado!

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Coloque o DataFrame df em cache.
  • Explique o processamento do DataFrame agg_result.
  • Remova do cache (unpersist) o DataFrame df após o processamento.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Cache the DataFrame
df.____

# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()

# Analyze the execution plan
agg_result.____

# Uncache the DataFrame
df.____
Editar e executar o código