1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Introduction to PySpark

Connected

cvičení

Spouštění SQL dotazů nad DataFrames

DataFrames v PySparku lze snadno manipulovat pomocí SQL dotazů. Metoda .sql() objektu SparkSession umožňuje spouštět SQL dotazy programově a vrací výsledek jako nový DataFrame. V tomto cvičení vytvoříš dočasnou tabulku z DataFrame, který jsi vytvořil/a dříve, sestavíš dotaz pro výběr jmen osob z této dočasné tabulky a výsledek přiřadíš do nového DataFrame.

Máš k dispozici SparkSession spark a DataFrame df.

Pokyny

100 XP
  • Vytvoř dočasnou tabulku s názvem "people" z DataFrame df.
  • Sestav dotaz, který vybere jména osob z dočasné tabulky people.
  • Přiřaď výsledek Sparkova dotazu do nového DataFrame s názvem people_df_names.
  • Vypiš prvních 10 jmen osob z DataFrame people_df_names.