When / Otherwise
Diese Anforderung ähnelt der letzten, aber jetzt möchtest du mehrere Werte basierend auf der Position der wählenden Person hinzufügen. Ändere dein DataFrame voter_df, um allen stimmberechtigten Mitgliedern, die als Councilmember definiert sind, eine Zufallszahl hinzuzufügen. Verwende 2 für den Mayor und 0 für jede andere Position.
Das DataFrame voter_df ist definiert und für dich verfügbar. Die Bibliothek pyspark.sql.functions ist als F verfügbar. Du kannst F.rand() verwenden, um den Zufallswert zu erzeugen.
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Anleitung zur Übung
- Füge
voter_dfeine Spalte namensrandom_valhinzu, mit den Ergebnissen der MethodeF.rand()für alle Wählenden mit dem Titel Councilmember. Setzerandom_valauf 2 für den Mayor. Setze alle anderen Titel auf den Wert 0. - Zeige einige Zeilen des DataFrames an und prüfe, ob die Klauseln funktioniert haben.
- Verwende die
.filter-Klausel, um 0 inrandom_valzu finden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
when(voter_df.TITLE == 'Councilmember', ____)
.____(____, 2)
____
# Show some of the DataFrame rows
voter_df.show()
# Use the .filter() clause with random_val
voter_df.____(____).show()