1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Analiza nieprawidłowych wierszy

Udało ci się odfiltrować wiersze za pomocą złączenia, ale czasem warto przyjrzeć się danym, które są nieprawidłowe. Takie dane można zapisać do późniejszego przetworzenia lub do diagnostyki źródeł danych.

Chcesz znaleźć różnicę między dwoma DataFrames i zachować nieprawidłowe wiersze.

Obiekt spark jest zdefiniowany, a pyspark.sql.functions jest zaimportowany jako F. Oryginalny DataFrame split_df oraz złączony DataFrame joined_df są dostępne w swoich poprzednich stanach.

Instrukcje

100 XP
  • Określ liczbę wierszy w każdym DataFrame.
  • Utwórz DataFrame zawierający wyłącznie nieprawidłowe wiersze.
  • Sprawdź, czy liczba wierszy w nowym DataFrame jest zgodna z oczekiwaniami.
  • Ustal liczbę usuniętych unikalnych wierszy z kolumny folderów.