When / Otherwise

Diese Anforderung ähnelt der letzten, aber jetzt möchtest du mehrere Werte basierend auf der Position der wählenden Person hinzufügen. Ändere dein DataFrame voter_df, um allen stimmberechtigten Mitgliedern, die als Councilmember definiert sind, eine Zufallszahl hinzuzufügen. Verwende 2 für den Mayor und 0 für jede andere Position.

Das DataFrame voter_df ist definiert und für dich verfügbar. Die Bibliothek pyspark.sql.functions ist als F verfügbar. Du kannst F.rand() verwenden, um den Zufallswert zu erzeugen.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Füge voter_df eine Spalte namens random_val hinzu, mit den Ergebnissen der Methode F.rand() für alle Wählenden mit dem Titel Councilmember. Setze random_val auf 2 für den Mayor. Setze alle anderen Titel auf den Wert 0.
Zeige einige Zeilen des DataFrames an und prüfe, ob die Klauseln funktioniert haben.
Verwende die .filter-Klausel, um 0 in random_val zu finden.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
                               when(voter_df.TITLE == 'Councilmember', ____)
                               .____(____, 2)
                               ____

# Show some of the DataFrame rows
voter_df.show()

# Use the .filter() clause with random_val
voter_df.____(____).show()

Code bearbeiten und ausführen