Quand / Sinon
Cette exigence est similaire à la précédente, mais vous souhaitez maintenant ajouter plusieurs valeurs en fonction de la position de l'électeur. Modifiez votre DataFrame voter_df
pour ajouter un nombre aléatoire à tout membre votant défini comme Councilmember
. Utilisez 2 pour le site Mayor
et 0 pour toute autre position.
Le cadre de données voter_df
est défini et mis à votre disposition. La bibliothèque pyspark.sql.functions
est disponible sous la forme de F.
. Vous pouvez utiliser F.rand()
pour générer une valeur aléatoire.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Ajoutez une colonne à
voter_df
nomméerandom_val
avec les résultats de la méthodeF.rand()
pour tout électeur ayant le titre de membre du conseil. Réglezrandom_val
sur 2 pour le maire. Attribuez la valeur 0 à tout autre titre. - Montrez quelques lignes du cadre de données, en notant si les clauses ont fonctionné.
- Utilisez la clause
.filter
pour trouver 0 dansrandom_val
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
when(voter_df.TITLE == 'Councilmember', ____)
.____(____, 2)
____
# Show some of the DataFrame rows
voter_df.show()
# Use the .filter() clause with random_val
voter_df.____(____).show()