Filtrowanie i czyszczenie danych w PySpark DataFrame

Po inspekcji danych często konieczne jest ich wyczyszczenie – obejmuje to m.in. wybieranie kolumn, zmianę ich nazw oraz usuwanie zduplikowanych wierszy. API PySpark DataFrame udostępnia kilka operatorów, które to umożliwiają. W tym ćwiczeniu wybierzesz kolumny 'name', 'sex' i 'date of birth' z DataFrame people_df, usuniesz zduplikowane wiersze i porównasz liczbę wierszy przed i po ich usunięciu.

Pamiętaj, że w przestrzeni roboczej masz już dostępną sesję SparkSession spark oraz DataFrame people_df.

Wybierz kolumny 'name', 'sex' i 'date of birth' z people_df i utwórz DataFrame people_df_sub.
Wyświetl pierwsze 10 obserwacji z DataFrame people_df_sub.
Usuń zduplikowane wiersze z DataFrame people_df_sub i utwórz DataFrame people_df_sub_nodup.
Ile wierszy jest przed usunięciem duplikatów i ile po tym kroku?

ćwiczenie

Filtrowanie i czyszczenie danych w PySpark DataFrame

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie