1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. PySpark でデータをクレンジングする

Connected

Exercises

DataFrame をキャッシュする

あなたは、ある DataFrame に対して複数の分析処理を実行するタスクを任されました。DataFrame を再利用する場合はキャッシュでパフォーマンスを改善できると学んだので、これを適用したいと考えています。

今回扱うのは、航空会社の出発情報からなる新しいデータセットです。重複データが含まれている可能性があり、重複排除が必要です。

DataFrame departures_df は定義済みですが、まだアクションは実行していません。

คำแนะนำ

100 XP
  • departures_df DataFrame の重複を取り除いた行をキャッシュしてください。
  • departures_df に対して件数を数えるクエリを実行し、処理時間を記録してください。
  • 再度行数を数え、キャッシュ後の DataFrame で時間の違いを確認してください。