CommencerCommencer gratuitement

IDs avec différentes partitions

Vous venez d’ajouter un champ d’identifiant à un DataFrame. Voyons maintenant ce qui se passe lorsque vous faites la même chose sur des DataFrames qui n’ont pas le même nombre de partitions.

Pour vérifier le nombre de partitions, utilisez la méthode .rdd.getNumPartitions() sur un DataFrame.

La session spark et deux DataFrames, voter_df et voter_df_single, sont disponibles dans votre environnement de travail. Les instructions vous aideront à découvrir la différence entre ces DataFrames. La bibliothèque pyspark.sql.functions est disponible sous l’alias F.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Affichez le nombre de partitions de chaque DataFrame.
  • Ajoutez un champ ROW_ID à chaque DataFrame.
  • Affichez les 10 premiers identifiants dans chaque DataFrame.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)

# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____

# Show the top 10 IDs in each DataFrame 
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)
Modifier et exécuter le code