クイックなパイプライン

より複雑なデータをパースする前に、マネージャーから基本手順を含むシンプルなパイプライン例を見せてほしいと言われました。今回は、データファイルを取り込み、数行をフィルタリングし、ID 列を追加して、JSON データとして書き出します。

spark コンテキストは定義済みで、慣例どおり pyspark.sql.functions ライブラリは F の別名でインポートされています。