LoslegenKostenlos loslegen

Wann / Sonst

Diese Anforderung ist ähnlich wie die letzte, aber jetzt willst du mehrere Werte auf der Grundlage der Position des Wählers hinzufügen. Ändere deinen voter_df DataFrame, um jedem stimmberechtigten Mitglied, das als Councilmember definiert ist, eine Zufallszahl hinzuzufügen. Verwende 2 für die Mayor und 0 für alle anderen Positionen.

Der voter_df Datenrahmen ist definiert und für dich verfügbar. Die Bibliothek pyspark.sql.functions ist als F. verfügbar. Du kannst F.rand() verwenden, um den Zufallswert zu erzeugen.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Füge eine Spalte mit dem Namen random_val zu voter_df hinzu, die die Ergebnisse der Methode F.rand() für alle Wähler mit dem Titel Ratsmitglied enthält. Setze random_val für den Bürgermeister auf 2. Setze alle anderen Titel auf den Wert 0.
  • Zeige einige der Zeilen des Datenrahmens und notiere, ob die Klauseln funktionieren.
  • Verwende die .filter Klausel, um 0 in random_val zu finden.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
                               when(voter_df.TITLE == 'Councilmember', ____)
                               .____(____, 2)
                               ____

# Show some of the DataFrame rows
voter_df.show()

# Use the .filter() clause with random_val
voter_df.____(____).show()
Code bearbeiten und ausführen