1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do PySpark

Connected

ćwiczenie

Analityka z SQL na DataFrame'ach

Zapytania SQL są zwięzłe i wygodniejsze w użyciu niż operacje na DataFrame'ach. Aby jednak wykonać zapytanie SQL na DataFrame'ie, najpierw musisz utworzyć tymczasowy widok tego DataFrame'a jako tabelę, a następnie uruchomić zapytanie na tej tabeli.

W swoim środowisku pracy masz już dostępne SparkContext spark oraz salaries_df.

Instrukcje

100 XP
  • Utwórz tymczasową tabelę "salaries_table" z DataFrame'a salaries_df.
  • Skonstruuj zapytanie wyodrębniające kolumnę "job_title" dla rekordów z company_location w Kanadzie ("CA").
  • Zastosuj zapytanie SQL i utwórz nowy DataFrame canada_titles.
  • Pobierz podsumowanie tabeli.