IDs com partições diferentes
Você acabou de adicionar um campo ID a um DataFrame. Agora, veja o que acontece quando você faz a mesma coisa em DataFrames que contêm um número diferente de partições.
Para verificar o número de partições, use o método .rdd.getNumPartitions() em um DataFrame.
A sessão spark e dois DataFrames, voter_df e voter_df_single, estão disponíveis em seu espaço de trabalho. As instruções ajudarão você a descobrir a diferença entre os DataFrames. A biblioteca pyspark.sql.functions está disponível sob o pseudônimo F.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercício
- Imprima o número de partições em cada DataFrame.
- Adicione um campo
ROW_IDa cada DataFrame. - Mostrar os 10 principais IDs em cada DataFrame.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)
# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____
# Show the top 10 IDs in each DataFrame
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)