1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark でデータをクレンジングする

Connected

演習

Spark の設定を書き換える

クラスター上の Spark 設定を確認したので、ニーズに合わせてチューニングできるよう、いくつかの設定を変更してみましょう。変更がクラスターに反映されたかを確認するために、データを読み込みます。

Spark の設定は初期状態ではパーティション数 200 に設定されています。

spark オブジェクトは利用可能です。departures.txt.gz というファイルがインポート用に用意されています。departures.txt.gz から重複を除いた行を含む初期の DataFrame は departures_df として利用できます。

指示

100 XP
  • departures_df のパーティション数を before という変数に保存します。
  • spark.sql.shuffle.partitions の設定をパーティション数 500 に変更します。
  • 出発データのファイルから重複を除いた行を読み込み、departures_df DataFrame を再作成します。
  • 設定変更の前後でのパーティション数を出力します。