1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Uložení DataFrame ve formátu Parquet

Při práci se Sparkem začínáš nejčastěji s CSV, JSON nebo jinými datovými zdroji. To ti dává velkou flexibilitu při načítání různých typů dat, ale pro Spark to není optimální formát. Formát Parquet je sloupcové datové úložiště, které Sparku umožňuje využívat predicate pushdown. To znamená, že Spark zpracuje jen ta data, která jsou skutečně potřebná k dokončení definovaných operací – místo toho, aby četl celou datovou sadu. Spark tak získává větší flexibilitu při přístupu k datům a výkon na velkých datových sadách se často výrazně zlepší.

V tomto cvičení si procvičíš vytvoření nového souboru Parquet a zpracování dat z něj.

Objekt spark a DataFramy df1 a df2 jsou již připraveny.

Pokyny

100 XP
  • Zobraz počet řádků v df1 a df2.
  • Spoj df1 a df2 do nového DataFrame df3 pomocí metody union.
  • Ulož df3 do souboru parquet s názvem AA_DFW_ALL.parquet.
  • Načti soubor AA_DFW_ALL.parquet a zobraz počet řádků.