1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Filtrowanie i czyszczenie danych w PySpark DataFrame

Po inspekcji danych często konieczne jest ich wyczyszczenie – obejmuje to m.in. wybieranie kolumn, zmianę ich nazw oraz usuwanie zduplikowanych wierszy. API PySpark DataFrame udostępnia kilka operatorów, które to umożliwiają. W tym ćwiczeniu wybierzesz kolumny 'name', 'sex' i 'date of birth' z DataFrame people_df, usuniesz zduplikowane wiersze i porównasz liczbę wierszy przed i po ich usunięciu.

Pamiętaj, że w przestrzeni roboczej masz już dostępną sesję SparkSession spark oraz DataFrame people_df.

Instrukcje

100 XP
  • Wybierz kolumny 'name', 'sex' i 'date of birth' z people_df i utwórz DataFrame people_df_sub.
  • Wyświetl pierwsze 10 obserwacji z DataFrame people_df_sub.
  • Usuń zduplikowane wiersze z DataFrame people_df_sub i utwórz DataFrame people_df_sub_nodup.
  • Ile wierszy jest przed usunięciem duplikatów i ile po tym kroku?