Zeilen über Join validieren
Ein weiteres Beispiel für das Filtern von Daten ist die Verwendung von Joins, um ungültige Einträge zu entfernen. Du musst überprüfen, ob die Ordnernamen wie erwartet sind, indem du einen DataFrame mit dem Namen valid_folders_df
verwendest. Der DataFrame split_df
ist so, wie du ihn zuletzt verlassen hast, mit einer Gruppe von geteilten Spalten.
Das Objekt spark
ist verfügbar, und pyspark.sql.functions
wird als F
importiert.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Benenne die Spalte
_c0
im DataFramevalid_folders_df
infolder
um. - Zähle die Anzahl der Zeilen in
split_df
. - Verbinde die beiden DataFrames über den Ordnernamen und nenne den resultierenden DataFrame
joined_df
. Achte darauf, dass du den kleineren DataFrame sendest. - Überprüfe die Anzahl der verbleibenden Zeilen im DataFrame und vergleiche.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))