Wann / Sonst
Diese Anforderung ist ähnlich wie die letzte, aber jetzt willst du mehrere Werte auf der Grundlage der Position des Wählers hinzufügen. Ändere deinen voter_df DataFrame, um jedem stimmberechtigten Mitglied, das als Councilmember definiert ist, eine Zufallszahl hinzuzufügen. Verwende 2 für die Mayor und 0 für alle anderen Positionen.
Der voter_df Datenrahmen ist definiert und für dich verfügbar. Die Bibliothek pyspark.sql.functions ist als F. verfügbar. Du kannst F.rand() verwenden, um den Zufallswert zu erzeugen.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Füge eine Spalte mit dem Namen
random_valzuvoter_dfhinzu, die die Ergebnisse der MethodeF.rand()für alle Wähler mit dem Titel Ratsmitglied enthält. Setzerandom_valfür den Bürgermeister auf 2. Setze alle anderen Titel auf den Wert 0. - Zeige einige der Zeilen des Datenrahmens und notiere, ob die Klauseln funktionieren.
- Verwende die
.filterKlausel, um 0 inrandom_valzu finden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
when(voter_df.TITLE == 'Councilmember', ____)
.____(____, 2)
____
# Show some of the DataFrame rows
voter_df.show()
# Use the .filter() clause with random_val
voter_df.____(____).show()