Wann / Sonst
Diese Anforderung ist ähnlich wie die letzte, aber jetzt willst du mehrere Werte auf der Grundlage der Position des Wählers hinzufügen. Ändere deinen voter_df
DataFrame, um jedem stimmberechtigten Mitglied, das als Councilmember
definiert ist, eine Zufallszahl hinzuzufügen. Verwende 2 für die Mayor
und 0 für alle anderen Positionen.
Der voter_df
Datenrahmen ist definiert und für dich verfügbar. Die Bibliothek pyspark.sql.functions
ist als F.
verfügbar. Du kannst F.rand()
verwenden, um den Zufallswert zu erzeugen.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Füge eine Spalte mit dem Namen
random_val
zuvoter_df
hinzu, die die Ergebnisse der MethodeF.rand()
für alle Wähler mit dem Titel Ratsmitglied enthält. Setzerandom_val
für den Bürgermeister auf 2. Setze alle anderen Titel auf den Wert 0. - Zeige einige der Zeilen des Datenrahmens und notiere, ob die Klauseln funktionieren.
- Verwende die
.filter
Klausel, um 0 inrandom_val
zu finden.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
when(voter_df.TITLE == 'Councilmember', ____)
.____(____, 2)
____
# Show some of the DataFrame rows
voter_df.show()
# Use the .filter() clause with random_val
voter_df.____(____).show()