1. Learn
  2. /
  3. Courses
  4. /
  5. PySpark でデータをクレンジングする

Connected

Exercise

列への分割

無効な行を DataFrame から取り除いたことで、データは大幅にクリーンになりました。次は、DataFrame の内容に基づいて意味のある特定の列を生成し、さらに変換を進めます。

spark コンテキストと、最新の annotations_df DataFrame が用意されています。pyspark.sql.functions はエイリアス F で利用できます。

Instructions

100 XP
  • '_c0' 列の内容をタブ文字で分割し、split_cols という変数に保存します。
  • 上の変数の先頭4要素に基づいて、folder、filename、width、height の列を DataFrame split_df に追加します。
  • split_cols 変数を列として追加します。