LoslegenKostenlos loslegen

Hinzufügen eines ID-Feldes

Wenn du mit Daten arbeitest, möchtest du manchmal nur auf bestimmte Felder zugreifen und verschiedene Operationen durchführen. In diesem Fall suchst du alle eindeutigen Wählernamen aus dem DataFrame und fügst eine eindeutige ID-Nummer hinzu. Denke daran, dass die Spark IDs auf der Grundlage der DataFrame-Partition zugewiesen werden - daher können die ID-Werte viel größer sein als die tatsächliche Anzahl der Zeilen im DataFrame.

Beim Lazy Processing von Spark werden die IDs erst dann erzeugt, wenn eine Aktion ausgeführt wird, und können je nach Größe des Datensatzes etwas zufällig sein.

Die Sitzung spark und ein Spark DataFrame df, der die Datei DallasCouncilVotes.csv.gz enthält, sind in deinem Arbeitsbereich verfügbar. Die Bibliothek pyspark.sql.functions ist unter dem Alias F verfügbar.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Wähle die eindeutigen Einträge aus der Spalte VOTER NAME aus und erstelle einen neuen DataFrame namens voter_df.
  • Zähle die Zeilen im DataFrame voter_df.
  • Füge eine ROW_ID-Spalte mit der entsprechenden Spark-Funktion hinzu.
  • Zeige die Zeilen mit den 10 höchsten ROW_IDs.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Select all the unique council voters
voter_df = df.____(df["VOTER NAME"]).____()

# Count the rows in voter_df
print("\nThere are %d rows in the voter_df DataFrame.\n" % ____)

# Add a ROW_ID
voter_df = voter_df.____('ROW_ID', F.____())

# Show the rows with 10 highest IDs in the set
voter_df.orderBy(voter_df.____.desc()).show(____)
Code bearbeiten und ausführen