1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark でデータをクレンジングする

Connected

演習

DataFrame を Parquet 形式で保存する

Spark で作業するときは、最初に CSV や JSON などのデータソースを扱うことがよくあります。これらは読み込むデータの種類に柔軟性を与えますが、Spark に最適な形式ではありません。Parquet 形式は列指向のデータストアで、Spark は述語プッシュダウンを利用できます。これは、Spark がデータセット全体を読むのではなく、指定した処理を完了するために必要なデータだけを処理するということです。これにより、データへのアクセスが柔軟になり、大規模データセットではパフォーマンスが大幅に向上することが多いです。

この演習では、新しい Parquet ファイルを作成し、そのデータを処理する練習をします。

spark オブジェクトと、DataFrame の df1 と df2 はあらかじめ用意されています。

指示

100 XP
  • df1 と df2 の行数を表示します。
  • union メソッドで df1 と df2 を結合し、df3 という新しい DataFrame を作成します。
  • df3 を AA_DFW_ALL.parquet という名前の parquet ファイルに保存します。
  • AA_DFW_ALL.parquet ファイルを読み込み、件数を表示します。