1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Introduction to Data Engineering

Connected

cvičení

Zápis do souboru

Ve videu jsi viděl/a, že data se často načítají do MPP databáze, jako je Redshift, aby byla dostupná pro analýzu.

Typický postup spočívá v zápisu dat do sloupcových datových souborů. Ty se pak nahrají do úložiště a odtud je lze zkopírovat do datového skladu. V případě Amazon Redshift by tímto úložištěm bylo například S3.

Prvním krokem je zapsat soubor ve správném formátu. V tomto cvičení použiješ formát Apache Parquet.

V tvém pracovním prostředí máš k dispozici PySpark DataFrame film_sdf a pandas DataFrame film_pdf.

Pokyny

100 XP
  • Zapiš pandas DataFrame film_pdf do souboru ve formátu parquet s názvem "films_pdf.parquet".
  • Zapiš PySpark DataFrame film_sdf do souboru ve formátu parquet s názvem "films_sdf.parquet".