Zeilen über Join validieren

Ein weiteres Beispiel für das Filtern von Daten ist die Verwendung von Joins, um ungültige Einträge zu entfernen. Du musst überprüfen, ob die Ordnernamen wie erwartet sind, indem du einen DataFrame mit dem Namen valid_folders_df verwendest. Der DataFrame split_df ist so, wie du ihn zuletzt verlassen hast, mit einer Gruppe von geteilten Spalten.

Das Objekt spark ist verfügbar, und pyspark.sql.functions wird als F importiert.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Benenne die Spalte _c0 im DataFrame valid_folders_df in folder um.
Zähle die Anzahl der Zeilen in split_df.
Verbinde die beiden DataFrames über den Ordnernamen und nenne den resultierenden DataFrame joined_df. Achte darauf, dass du den kleineren DataFrame sendest.
Überprüfe die Anzahl der verbleibenden Zeilen im DataFrame und vergleiche.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Rename the column in valid_folders_df
valid_folders_df = ____

# Count the number of rows in split_df
split_count = ____

# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")

# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))

Code bearbeiten und ausführen