ComeçarComece de graça

IDs com partições diferentes

Você acabou de adicionar um campo ID a um DataFrame. Agora, veja o que acontece quando você faz a mesma coisa em DataFrames que contêm um número diferente de partições.

Para verificar o número de partições, use o método .rdd.getNumPartitions() em um DataFrame.

A sessão spark e dois DataFrames, voter_df e voter_df_single, estão disponíveis em seu espaço de trabalho. As instruções ajudarão você a descobrir a diferença entre os DataFrames. A biblioteca pyspark.sql.functions está disponível sob o pseudônimo F.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercício

  • Imprima o número de partições em cada DataFrame.
  • Adicione um campo ROW_ID a cada DataFrame.
  • Mostrar os 10 principais IDs em cada DataFrame.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)

# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____

# Show the top 10 IDs in each DataFrame 
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)
Editar e executar o código