Praticando cache: juntando tudo
Qual foi a melhor abordagem para fazer cache de df1 e df2 e por quê?
Seus resultados podem variar; aqui vai um resultado (aleatório) para cada uma das duas abordagens:
Primeira resposta (fazer cache de df1):
df1_1st : 2.4s
df1_2nd : 0.1s
df2_1st : 0.3s
df2_2nd : 0.2s
Overall elapsed : 3.9
Segunda resposta (fazer cache de df2):
df1_1st : 2.3s
df1_2nd : 1.1s
df2_1st : 1.7s
df2_2nd : 0.1s
Overall elapsed : 6.4
Este exercício faz parte do curso
Introdução ao Spark SQL em Python
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício