1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark でデータをクレンジングする

Connected

演習

画像ごとのカウント

このデータセット向けのデータパイプラインを構築する次のタスクは、分析に役立つ列をいくつか作成することです。先に作成した dog_list 列を基に、各画像に写っている犬の数を計算するよう依頼されています。また、いくつかのデータ列の内容をより適切に解釈できるよう、DogType も作成済みです。

joined_df は前に定義したとおりに利用可能で、DogType の StructType も定義されています。pyspark.sql.functions は F というエイリアスで利用できます。

指示

100 XP
  • dog_list の各エントリを適切な要素に分割する Python 関数を作成してください。文字列は適切な型に変換しないと DogType を正しく解釈できないので注意してください。
  • 上記の関数を使って UDF を作成してください。
  • UDF を使って dogs という新しい列を作成してください。
  • 新しい列にある犬の数を、先頭10行について表示してください。