1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Weryfikacja wierszy za pomocą złączenia

Kolejnym sposobem filtrowania danych jest używanie złączeń do usuwania nieprawidłowych wpisów. Zweryfikuj nazwy folderów na podstawie DataFrame o nazwie valid_folders_df. DataFrame split_df zawiera kolumny podzielone tak, jak je ostatnio zostawiłeś.

Obiekt spark jest dostępny, a pyspark.sql.functions jest zaimportowany jako F.

Instrukcje

100 XP
  • Zmień nazwę kolumny _c0 na folder w DataFrame valid_folders_df.
  • Policz liczbę wierszy w split_df.
  • Złącz oba DataFrame po nazwie folderu i nadaj wynikowemu DataFrame nazwę joined_df. Pamiętaj, aby użyć broadcast dla mniejszego DataFrame.
  • Sprawdź, ile wierszy pozostało w DataFrame, i porównaj wynik.