1. Uczyć się
  2. /
  3. Courses
  4. /
  5. PySpark でデータをクレンジングする

Connected

Exercise

遅延処理を使う

遅延処理の操作は、実際のデータ量にかかわらず、おおむね同じくらいの時間で返ってきます。これは、アクションが要求されるまで Spark が変換を実行しないためです。

この演習では、DataFrame(aa_dfw_df)を定義し、いくつかの変換を追加します。変換を定義したときと、実際にデータをクエリしたときで、完了にかかる時間の違いに注目してください。差は短いかもしれませんが、気づけるはずです。より大きなデータを扱うフルの Spark クラスターでは、その違いがより明確になります。

Instrukcje

100 XP
  • DataFrame を読み込みます。
  • Destination Airport 列に F.lower() の変換を追加します。
  • DataFrame を表示し、このアクションが完了するまでの時間の違いに注目します。