DataFrame を Parquet 形式で保存する

Spark で作業するときは、最初に CSV や JSON などのデータソースを扱うことがよくあります。これらは読み込むデータの種類に柔軟性を与えますが、Spark に最適な形式ではありません。Parquet 形式は列指向のデータストアで、Spark は述語プッシュダウンを利用できます。これは、Spark がデータセット全体を読むのではなく、指定した処理を完了するために必要なデータだけを処理するということです。これにより、データへのアクセスが柔軟になり、大規模データセットではパフォーマンスが大幅に向上することが多いです。

この演習では、新しい Parquet ファイルを作成し、そのデータを処理する練習をします。

spark オブジェクトと、DataFrame の df1 と df2 はあらかじめ用意されています。