Zeilen per Join validieren
Ein weiteres Beispiel für das Filtern von Daten ist, Joins zu nutzen, um ungültige Einträge zu entfernen. Du sollst die Ordnernamen anhand eines gegebenen DataFrames namens valid_folders_df überprüfen. Das DataFrame split_df ist noch so, wie du es zuletzt verlassen hast: mit einer Gruppe gesplitteter Spalten.
Das spark-Objekt ist verfügbar, und pyspark.sql.functions ist als F importiert.
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Anleitung zur Übung
- Benenne die Spalte
_c0im DataFramevalid_folders_dfinfolderum. - Zähle die Anzahl der Zeilen in
split_df. - Joine die beiden DataFrames über den Ordnernamen und nenne das resultierende DataFrame
joined_df. Achte darauf, das kleinere DataFrame zu broadcasten. - Prüfe die verbleibende Zeilenanzahl im DataFrame und vergleiche.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))