遅延処理を使う

遅延処理の操作は、実際のデータ量にかかわらず、おおむね同じくらいの時間で返ってきます。これは、アクションが要求されるまで Spark が変換を実行しないためです。

この演習では、DataFrame（aa_dfw_df）を定義し、いくつかの変換を追加します。変換を定義したときと、実際にデータをクエリしたときで、完了にかかる時間の違いに注目してください。差は短いかもしれませんが、気づけるはずです。より大きなデータを扱うフルの Spark クラスターでは、その違いがより明確になります。