1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

SQL i Parquet

Pliki Parquet świetnie sprawdzają się jako magazyn danych dla zapytań SQL w Sparku. Choć te same zapytania można wykonywać bezpośrednio za pomocą funkcji Pythona w Sparku, czasem wygodniej jest korzystać z zapytań SQL obok opcji pythonowych.

W tym ćwiczeniu wczytasz plik Parquet utworzony w poprzednim kroku i zarejestrujesz go jako tabelę SQL. Po rejestracji uruchomisz proste zapytanie względem tej tabeli (czyli pliku Parquet).

Obiekt spark oraz plik AA_DFW_ALL.parquet są już dla ciebie dostępne.

Instrukcje

100 XP
  • Wczytaj plik AA_DFW_ALL.parquet do zmiennej flights_df.
  • Użyj metody createOrReplaceTempView, aby nadać alias tabeli flights.
  • Uruchom zapytanie Spark SQL względem tabeli flights.