Spark の設定を書き換える

クラスター上の Spark 設定を確認したので、ニーズに合わせてチューニングできるよう、いくつかの設定を変更してみましょう。変更がクラスターに反映されたかを確認するために、データを読み込みます。

Spark の設定は初期状態ではパーティション数 200 に設定されています。

spark オブジェクトは利用可能です。departures.txt.gz というファイルがインポート用に用意されています。departures.txt.gz から重複を除いた行を含む初期の DataFrame は departures_df として利用できます。