1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. PySpark でデータをクレンジングする

Connected

Exercises

犬のパース処理

初期データセットに対して相当なクリーンアップを行ってきましたが、ここからはもう少し踏み込んだ分析が必要です。画像に写っている犬の種類や、画像に関する詳細について、いくつかの疑問が出てきました。これらに答えるには、データを特定の型に加工する必要があると気づきます。利用できるようにする前に、犬の詳細を表すスキーマ/型を作成する必要があります。

joined_df DataFrame は直前に定義した状態のままで、pyspark.sql.types はすべてインポート済みです。

คำแนะนำ

100 XP
  • DataFrame から犬の詳細を表す列を選択し、先頭10行を省略せずに表示してください。
  • これまでと同様に新しいスキーマを作成し、名前は breed、start_x、start_y、end_x、および end_y とします。スキーマ内の各フィールドに適切なデータ型を指定してください(数値はすべて整数)。