1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

SQL a Parquet

Soubory Parquet jsou ideálním datovým úložištěm pro SQL dotazy v Sparku. Přestože stejné dotazy lze spustit přímo přes Python funkce Sparku, někdy je pohodlnější kombinovat SQL dotazy s možnostmi Pythonu.

V tomto příkladu načteme soubor Parquet, který jsme vytvořili v předchozím cvičení, a zaregistrujeme ho jako SQL tabulku. Po registraci nad ní spustíme rychlý dotaz (tedy nad samotným souborem Parquet).

Objekt spark a soubor AA_DFW_ALL.parquet máš k dispozici automaticky.

Pokyny

100 XP
  • Načti soubor AA_DFW_ALL.parquet do proměnné flights_df.
  • Pomocí metody createOrReplaceTempView nastav alias tabulky flights.
  • Spusť SQL dotaz v Sparku proti tabulce flights.