1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Filtrowanie DataFrame

W poprzednim ćwiczeniu wybrałeś podzbiór danych za pomocą operatora select(), który służy głównie do zawężania DataFrame do wybranych kolumn. Co jednak zrobić, gdy chcesz wybrać wiersze spełniające określony warunek (na przykład wszystkie wiersze, w których płeć to kobieta)? W tym ćwiczeniu przefiltruj wiersze DataFrame people_df według wartości kolumny 'sex' – osobno dla kobiet i mężczyzn – tworząc dwa oddzielne zbiory danych. Na koniec policz liczbę wierszy w każdym z nich.

Pamiętaj, że w obszarze roboczym masz już dostępne: SparkSession spark oraz DataFrame people_df.

Instrukcje

100 XP
  • Przefiltruj DataFrame people_df, aby wybrać wszystkie wiersze, w których płeć to kobieta, i zapisz wynik do DataFrame people_df_female.
  • Przefiltruj DataFrame people_df, aby wybrać wszystkie wiersze, w których płeć to mężczyzna, i zapisz wynik do DataFrame people_df_male.
  • Policz liczbę wierszy w DataFrame people_df_female i people_df_male.