IDs com partições diferentes
Você acabou de adicionar um campo ID a um DataFrame. Agora, veja o que acontece quando você faz a mesma coisa em DataFrames que contêm um número diferente de partições.
Para verificar o número de partições, use o método .rdd.getNumPartitions()
em um DataFrame.
A sessão spark
e dois DataFrames, voter_df
e voter_df_single
, estão disponíveis em seu espaço de trabalho. As instruções ajudarão você a descobrir a diferença entre os DataFrames. A biblioteca pyspark.sql.functions
está disponível sob o pseudônimo F
.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercício
- Imprima o número de partições em cada DataFrame.
- Adicione um campo
ROW_ID
a cada DataFrame. - Mostrar os 10 principais IDs em cada DataFrame.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)
# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____
# Show the top 10 IDs in each DataFrame
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)