Quand / Sinon
Cette exigence est similaire à la précédente, mais vous souhaitez maintenant ajouter plusieurs valeurs en fonction de la position de l'électeur. Modifiez votre DataFrame voter_df pour ajouter un nombre aléatoire à tout membre votant défini comme Councilmember. Utilisez 2 pour le site Mayor et 0 pour toute autre position.
Le cadre de données voter_df est défini et mis à votre disposition. La bibliothèque pyspark.sql.functions est disponible sous la forme de F.. Vous pouvez utiliser F.rand() pour générer une valeur aléatoire.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Ajoutez une colonne à
voter_dfnomméerandom_valavec les résultats de la méthodeF.rand()pour tout électeur ayant le titre de membre du conseil. Réglezrandom_valsur 2 pour le maire. Attribuez la valeur 0 à tout autre titre. - Montrez quelques lignes du cadre de données, en notant si les clauses ont fonctionné.
- Utilisez la clause
.filterpour trouver 0 dansrandom_val.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
when(voter_df.TITLE == 'Councilmember', ____)
.____(____, 2)
____
# Show some of the DataFrame rows
voter_df.show()
# Use the .filter() clause with random_val
voter_df.____(____).show()