1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark でデータをクレンジングする

Connected

演習

ファイル取り込みのパフォーマンス

大量のデータを Spark の DataFrame に取り込むよう依頼されました。ファイルを分割して取り込むことで速度に差が出るかをテストしたいと考えています。

利用できるファイルは 2 種類あります。departures_full.txt.gz と、xxx が 000 から 013 の departures_xxx.txt.gz です。各ファイルには、同じ行数が均等に分割されています。

指示

100 XP
  • departures_full.txt.gz と departures_xxx.txt.gz を、それぞれ別の DataFrame に取り込みます。
  • 各 DataFrame に対して count を実行し、実行時間を比較します。