Spalteninhalte mit Python filtern

Du hast dir angesehen, wie man verschiedene Operationen auf DataFrame-Spalten anwendet – jetzt kannst du ein echtes Dataset bearbeiten. Der DataFrame voter_df enthält Informationen zu den Abstimmenden im Dallas City Council aus den letzten Jahren. Dieser gekürzte DataFrame enthält das Datum der Stimmabgabe sowie den Namen und die Position der abstimmenden Person. Deine Führungskraft hat dich gebeten, diese Daten zu bereinigen, damit sie später in einige gewünschte Berichte integriert werden können. Die Hauptaufgabe besteht darin, Null-Einträge oder ungewöhnliche Zeichen zu entfernen und eine bestimmte Auswahl an Personen zurückzugeben, deren Informationen du validieren kannst.

Das ist häufig einer der ersten Schritte beim Data Cleaning – alles zu entfernen, was offensichtlich nicht dem erwarteten Format entspricht. Achte bei diesem Datensatz darauf, dir die Originaldaten anzusehen und zu prüfen, was in der Spalte VOTER_NAME fehl am Platz aussieht.

Die Bibliothek pyspark.sql.functions ist bereits unter dem Alias F importiert.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Zeige die unterschiedlichen Einträge in VOTER_NAME.
Filtere voter_df so, dass VOTER_NAME 1–20 Zeichen lang ist.
Filtere voter_df so, dass Einträge mit _ in VOTER_NAME ausgeschlossen werden.
Zeige die unterschiedlichen Einträge in VOTER_NAME erneut.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Show the distinct VOTER_NAME entries
voter_df.select(____).distinct().show(40, truncate=False)

# Filter voter_df where the VOTER_NAME is 1-20 characters in length
voter_df = ____('length(VOTER_NAME) > 0 and length(VOTER_NAME) < 20')

# Filter out voter_df where the VOTER_NAME contains an underscore
voter_df = voter_df.filter(~ F.col('VOTER_NAME').____)

# Show the distinct VOTER_NAME entries again
voter_df.____(____).____().____(40, truncate=False)

Code bearbeiten und ausführen