CommencerCommencez gratuitement

When / Otherwise

Cette consigne ressemble à la précédente, mais vous devez maintenant ajouter plusieurs valeurs selon la fonction de l’électeur. Modifiez votre DataFrame voter_df pour ajouter un nombre aléatoire à tout membre votant dont la fonction est Councilmember. Utilisez 2 pour le Mayor et 0 pour toute autre fonction.

Le DataFrame voter_df est déjà défini et à votre disposition. La bibliothèque pyspark.sql.functions est disponible sous F. Vous pouvez utiliser F.rand() pour générer la valeur aléatoire.

Cet exercice fait partie du cours

<cours>Nettoyer des données avec PySpark</cours>
Voir le cours

Instructions de l’exercice

  • Ajoutez une colonne à voter_df nommée random_val avec le résultat de la méthode F.rand() pour tout électeur portant le titre Councilmember. Affectez la valeur 2 à random_val pour le Mayor. Attribuez la valeur 0 à tout autre titre.
  • Affichez quelques lignes du DataFrame et vérifiez si les conditions ont fonctionné.
  • Utilisez la clause .filter pour trouver les 0 dans random_val.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
                               when(voter_df.TITLE == 'Councilmember', ____)
                               .____(____, 2)
                               ____

# Show some of the DataFrame rows
voter_df.show()

# Use the .filter() clause with random_val
voter_df.____(____).show()
Modifier et exécuter le code