LoslegenKostenlos loslegen

Untersuchung ungültiger Zeilen

Du hast die Zeilen mithilfe einer Verknüpfung erfolgreich herausgefiltert, aber manchmal möchtest du die ungültigen Daten untersuchen. Diese Daten können für die spätere Verarbeitung oder zur Fehlersuche in deinen Datenquellen gespeichert werden.

Du möchtest die Differenz zwischen zwei DataFrames ermitteln und die ungültigen Zeilen speichern.

Das Objekt spark ist definiert und pyspark.sql.functions wird als F importiert. Der ursprüngliche DataFrame split_df und der verknüpfte DataFrame joined_df sind in ihrem vorherigen Zustand verfügbar.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Bestimme die Zeilenzahlen für jeden DataFrame.
  • Erstelle einen DataFrame, der nur die ungültigen Zeilen enthält.
  • Überprüfe, ob die Zählung des neuen DataFrames den Erwartungen entspricht.
  • Bestimme die Anzahl der entfernten eindeutigen Ordnerzeilen.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Determine the row counts for each DataFrame
split_count = ____
joined_count = ____

# Create a DataFrame containing the invalid rows
invalid_df = split_df.____(____(joined_df), '____', '____')

# Validate the count of the new DataFrame is as expected
invalid_count = ____
print(" split_df:\t%d\n joined_df:\t%d\n invalid_df: \t%d" % (split_count, joined_count, invalid_count))

# Determine the number of distinct folder rows removed
invalid_folder_count = invalid_df.____('____').____.____
print("%d distinct invalid folders found" % invalid_folder_count)
Code bearbeiten und ausführen