CommencerCommencer gratuitement

ID avec différentes partitions

Vous venez d'ajouter un champ ID à un DataFrame. Maintenant, regardez ce qui se passe lorsque vous faites la même chose sur des DataFrame contenant un nombre différent de partitions.

Pour vérifier le nombre de partitions, utilisez la méthode .rdd.getNumPartitions() sur un DataFrame.

La session spark et deux DataFrame, voter_df et voter_df_single, sont disponibles dans votre espace de travail. Les instructions vous aideront à découvrir la différence entre les DataFrame. La bibliothèque pyspark.sql.functions est disponible sous l'alias F.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Imprime le nombre de partitions sur chaque DataFrame.
  • Ajoutez un champ ROW_ID à chaque DataFrame.
  • Affichez les 10 premiers ID de chaque DataFrame.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)

# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____

# Show the top 10 IDs in each DataFrame 
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)
Modifier et exécuter le code