LoslegenKostenlos starten

Zeilen per Join validieren

Ein weiteres Beispiel für das Filtern von Daten ist, Joins zu nutzen, um ungültige Einträge zu entfernen. Du sollst die Ordnernamen anhand eines gegebenen DataFrames namens valid_folders_df überprüfen. Das DataFrame split_df ist noch so, wie du es zuletzt verlassen hast: mit einer Gruppe gesplitteter Spalten.

Das spark-Objekt ist verfügbar, und pyspark.sql.functions ist als F importiert.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung mit PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Benenne die Spalte _c0 im DataFrame valid_folders_df in folder um.
  • Zähle die Anzahl der Zeilen in split_df.
  • Joine die beiden DataFrames über den Ordnernamen und nenne das resultierende DataFrame joined_df. Achte darauf, das kleinere DataFrame zu broadcasten.
  • Prüfe die verbleibende Zeilenanzahl im DataFrame und vergleiche.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Rename the column in valid_folders_df
valid_folders_df = ____

# Count the number of rows in split_df
split_count = ____

# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")

# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))
Code bearbeiten und ausführen