ID avec différentes partitions
Vous venez d'ajouter un champ ID à un DataFrame. Maintenant, regardez ce qui se passe lorsque vous faites la même chose sur des DataFrame contenant un nombre différent de partitions.
Pour vérifier le nombre de partitions, utilisez la méthode .rdd.getNumPartitions()
sur un DataFrame.
La session spark
et deux DataFrame, voter_df
et voter_df_single
, sont disponibles dans votre espace de travail. Les instructions vous aideront à découvrir la différence entre les DataFrame. La bibliothèque pyspark.sql.functions
est disponible sous l'alias F
.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Imprime le nombre de partitions sur chaque DataFrame.
- Ajoutez un champ
ROW_ID
à chaque DataFrame. - Affichez les 10 premiers ID de chaque DataFrame.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)
# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____
# Show the top 10 IDs in each DataFrame
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)