CommencerCommencer gratuitement

Ajout d'un champ d'identification

Lorsque vous travaillez avec des données, il arrive que vous ne souhaitiez accéder qu'à certains champs et effectuer diverses opérations. Dans ce cas, trouvez tous les noms d'électeurs uniques dans le DataFrame et ajoutez un numéro d'identification unique. N'oubliez pas que les ID Spark sont attribués en fonction de la partition du DataFrame - les valeurs des ID peuvent donc être beaucoup plus élevées que le nombre réel de lignes dans le DataFrame.

Avec le traitement paresseux de Spark, les identifiants ne sont pas réellement générés tant qu'une action n'est pas effectuée et peuvent être quelque peu aléatoires en fonction de la taille de l'ensemble de données.

La session spark et un DataFrame Spark df contenant le fichier DallasCouncilVotes.csv.gz sont disponibles dans votre espace de travail. La bibliothèque pyspark.sql.functions est disponible sous l'alias F.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Sélectionnez les entrées uniques de la colonne VOTER NAME et créez un nouveau DataFrame appelé voter_df.
  • Comptez les lignes du DataFrame voter_df.
  • Ajoutez une colonne ROW_ID en utilisant la fonction Spark appropriée.
  • Affichez les lignes avec les 10 ROW_ID les plus élevés.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Select all the unique council voters
voter_df = df.____(df["VOTER NAME"]).____()

# Count the rows in voter_df
print("\nThere are %d rows in the voter_df DataFrame.\n" % ____)

# Add a ROW_ID
voter_df = voter_df.____('ROW_ID', F.____())

# Show the rows with 10 highest IDs in the set
voter_df.orderBy(voter_df.____.desc()).show(____)
Modifier et exécuter le code