ComeçarComece de graça

Inspecionando o cache na Spark UI

Um dataframe partitioned_df está disponível. Ele é usado para registrar uma tabela temporária chamada text. Em seguida, text é colocado em cache usando spark.catalog.cacheTable('text'). Se você estivesse executando o Spark localmente, a Spark UI estaria disponível em http://localhost:4040/storage/. Para este exercício, analise a imagem a seguir. Ela mostra o que a Spark UI exibiria assim que o cache de text fosse carregado:

Spark UI Storage

Isso indica que uma tabela chamada text, com sete partições, está em cache na memória. Qual das alternativas a seguir faria com que isso aparecesse imediatamente na Spark UI?

  1. Executar uma transformação no dataframe subjacente, por exemplo: df = partitioned_df.distinct().

  2. Contar o dataframe subjacente, por exemplo: partitioned_df.count()

  3. Consultar a tabela usando, por exemplo: spark.sql("select count(*) from text")

  4. Consultar e mostrar o resultado, por exemplo: spark.sql("select count(*) from text").show()

Este exercício faz parte do curso

Introdução ao Spark SQL em Python

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício