LoslegenKostenlos loslegen

Zeilen per Join validieren

Ein weiteres Beispiel für das Filtern von Daten ist, Joins zu nutzen, um ungültige Einträge zu entfernen. Du sollst die Ordnernamen anhand eines gegebenen DataFrames namens valid_folders_df überprüfen. Das DataFrame split_df ist noch so, wie du es zuletzt verlassen hast: mit einer Gruppe gesplitteter Spalten.

Das spark-Objekt ist verfügbar, und pyspark.sql.functions ist als F importiert.

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Benenne die Spalte _c0 im DataFrame valid_folders_df in folder um.
  • Zähle die Anzahl der Zeilen in split_df.
  • Joine die beiden DataFrames über den Ordnernamen und nenne das resultierende DataFrame joined_df. Achte darauf, das kleinere DataFrame zu broadcasten.
  • Prüfe die verbleibende Zeilenanzahl im DataFrame und vergleiche.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Rename the column in valid_folders_df
valid_folders_df = ____

# Count the number of rows in split_df
split_count = ____

# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")

# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))
Code bearbeiten und ausführen