CommencerCommencer gratuitement

Quand / Sinon

Cette exigence est similaire à la précédente, mais vous souhaitez maintenant ajouter plusieurs valeurs en fonction de la position de l'électeur. Modifiez votre DataFrame voter_df pour ajouter un nombre aléatoire à tout membre votant défini comme Councilmember. Utilisez 2 pour le site Mayor et 0 pour toute autre position.

Le cadre de données voter_df est défini et mis à votre disposition. La bibliothèque pyspark.sql.functions est disponible sous la forme de F.. Vous pouvez utiliser F.rand() pour générer une valeur aléatoire.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Ajoutez une colonne à voter_df nommée random_val avec les résultats de la méthode F.rand() pour tout électeur ayant le titre de membre du conseil. Réglez random_val sur 2 pour le maire. Attribuez la valeur 0 à tout autre titre.
  • Montrez quelques lignes du cadre de données, en notant si les clauses ont fonctionné.
  • Utilisez la clause .filter pour trouver 0 dans random_val.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
                               when(voter_df.TITLE == 'Councilmember', ____)
                               .____(____, 2)
                               ____

# Show some of the DataFrame rows
voter_df.show()

# Use the .filter() clause with random_val
voter_df.____(____).show()
Modifier et exécuter le code