ćwiczenie

Weryfikacja wierszy za pomocą złączenia

Kolejnym sposobem filtrowania danych jest używanie złączeń do usuwania nieprawidłowych wpisów. Zweryfikuj nazwy folderów na podstawie DataFrame o nazwie valid_folders_df. DataFrame split_df zawiera kolumny podzielone tak, jak je ostatnio zostawiłeś.

Obiekt spark jest dostępny, a pyspark.sql.functions jest zaimportowany jako F.

Instrukcje

100 XP

Zmień nazwę kolumny _c0 na folder w DataFrame valid_folders_df.
Policz liczbę wierszy w split_df.
Złącz oba DataFrame po nazwie folderu i nadaj wynikowemu DataFrame nazwę joined_df. Pamiętaj, aby użyć broadcast dla mniejszego DataFrame.
Sprawdź, ile wierszy pozostało w DataFrame, i porównaj wynik.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie