1. Learn
  2. /
  3. Kurser
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

övning

欠損データの補完

欠損データは避けられません。データが完全にランダムに欠損していると仮定する場合、手元のデータが母集団をよく代表しているとみなします。欠損が少しであれば、削除することも、平均値や中央値で置き換えることもできます。この演習では、現行価格での市場掲載日数である 'PDOM' を扱います。

Instruktioner

100 XP
  • where()、isNull()、count() を使って、列 'PDOM' の欠損値の件数を数えます。
  • 集約関数 mean() を使って 'PDOM' の平均値を計算します。
  • fillna() を、値を 'PDOM' の平均値に設定し、subset パラメータで列 'PDOM' のみに適用します。