Belajar

/

Kursus

/

PySpark でデータをクレンジングする

Connected

Latihan

列への分割

無効な行を DataFrame から取り除いたことで、データは大幅にクリーンになりました。次は、DataFrame の内容に基づいて意味のある特定の列を生成し、さらに変換を進めます。

spark コンテキストと、最新の annotations_df DataFrame が用意されています。pyspark.sql.functions はエイリアス F で利用できます。

Instruksi

100 XP

'_c0' 列の内容をタブ文字で分割し、split_cols という変数に保存します。
上の変数の先頭4要素に基づいて、folder、filename、width、height の列を DataFrame split_df に追加します。
split_cols 変数を列として追加します。