Ungültige Zeilen untersuchen

Du hast die Zeilen erfolgreich per Join herausgefiltert, aber manchmal möchtest du dir die ungültigen Daten genauer ansehen. Diese Daten können für eine spätere Verarbeitung oder zur Fehleranalyse deiner Datenquellen gespeichert werden.

Du möchtest die Differenz zwischen zwei DataFrames finden und die ungültigen Zeilen speichern.

Das Objekt spark ist definiert und pyspark.sql.functions ist als F importiert. Das ursprüngliche DataFrame split_df und das gejointe DataFrame joined_df stehen in ihrem vorherigen Zustand zur Verfügung.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Bestimme die Zeilenzahl für jedes DataFrame.
Erstelle ein DataFrame, das nur die ungültigen Zeilen enthält.
Überprüfe, ob die Anzahl des neuen DataFrames wie erwartet ist.
Bestimme die Anzahl der unterschiedlichen, entfernten Ordner-Zeilen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Determine the row counts for each DataFrame
split_count = ____
joined_count = ____

# Create a DataFrame containing the invalid rows
invalid_df = split_df.____(____(joined_df), '____', '____')

# Validate the count of the new DataFrame is as expected
invalid_count = ____
print(" split_df:\t%d\n joined_df:\t%d\n invalid_df: \t%d" % (split_count, joined_count, invalid_count))

# Determine the number of distinct folder rows removed
invalid_folder_count = invalid_df.____('____').____.____
print("%d distinct invalid folders found" % invalid_folder_count)

Code bearbeiten und ausführen