1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Zapytania SQL do filtrowania tabeli

W poprzednim ćwiczeniu uruchomiłeś/-aś proste zapytanie SQL na DataFrame. Możesz tworzyć też bardziej zaawansowane zapytania, które pozwalają uzyskać dokładnie takie wyniki, jakich potrzebujesz – przydatne na przykład do wizualizacji danych czy uczenia maszynowego. W tym ćwiczeniu skorzystamy z tymczasowej tabeli people, którą wcześniej utworzyłeś/-aś, przefiltrujemy wiersze według wartości kolumny "sex" (męska i żeńska) i stworzymy dwa osobne DataFrame.

Zwróć uwagę, że „rozwiązanie" rozróżnia wielkość liter w poleceniach SQL (np. akceptuje wyłącznie FROM, nie from). Ponadto akceptuje tylko operator "==" – nie "=".

Pamiętaj, że w środowisku pracy masz już dostępną sesję SparkSession spark oraz tymczasową tabelę people.

Instrukcje

100 XP
  • Przefiltruj tabelę people, aby wybrać wszystkie wiersze, w których płeć to female, i zapisz wynik w DataFrame people_female_df.
  • Przefiltruj tabelę people, aby wybrać wszystkie wiersze, w których płeć to male, i zapisz wynik w DataFrame people_male_df.
  • Policz liczbę wierszy w obu DataFrame: people_female i people_male.