When / Otherwise
Cette consigne ressemble à la précédente, mais vous devez maintenant ajouter plusieurs valeurs selon la fonction de l’électeur. Modifiez votre DataFrame voter_df pour ajouter un nombre aléatoire à tout membre votant dont la fonction est Councilmember. Utilisez 2 pour le Mayor et 0 pour toute autre fonction.
Le DataFrame voter_df est déjà défini et à votre disposition. La bibliothèque pyspark.sql.functions est disponible sous F. Vous pouvez utiliser F.rand() pour générer la valeur aléatoire.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Ajoutez une colonne à
voter_dfnomméerandom_valavec le résultat de la méthodeF.rand()pour tout électeur portant le titre Councilmember. Affectez la valeur 2 àrandom_valpour le Mayor. Attribuez la valeur 0 à tout autre titre. - Affichez quelques lignes du DataFrame et vérifiez si les conditions ont fonctionné.
- Utilisez la clause
.filterpour trouver les 0 dansrandom_val.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
when(voter_df.TITLE == 'Councilmember', ____)
.____(____, 2)
____
# Show some of the DataFrame rows
voter_df.show()
# Use the .filter() clause with random_val
voter_df.____(____).show()