1. Learn
  2. /
  3. Courses
  4. /
  5. PySpark でデータをクレンジングする

Connected

Exercise

クイックなパイプライン

より複雑なデータをパースする前に、マネージャーから基本手順を含むシンプルなパイプライン例を見せてほしいと言われました。今回は、データファイルを取り込み、数行をフィルタリングし、ID 列を追加して、JSON データとして書き出します。

spark コンテキストは定義済みで、慣例どおり pyspark.sql.functions ライブラリは F の別名でインポートされています。

Instructions

100 XP
  • ファイル 2015-departures.csv.gz を DataFrame にインポートします。ヘッダーは既に定義されています。
  • DataFrame を、フライト時間が 0 分より長いものだけにフィルタリングします。列名ではなく列の「インデックス」を使ってください(列名や順序を確認するには .printSchema() を使いましょう)。
  • ID 列を追加します。
  • output.json という名前の JSON ドキュメントとして書き出します。