1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで挑むKaggleコンペティション

Connected

연습 문제

欠損データを補完する

Rental Listing Inquiries データセットで、"price" 列と "building_id" 列に欠損があることが分かりました。したがって、モデルに渡す前にこれらの値を補完する必要があります。

数値特徴量の "price" は、欠損でない価格の平均値でエンコードします。

カテゴリ特徴量の "building_id" を最頻カテゴリで補完するのは良くありません。すべての "building_id" 欠損の物件が最も人気の建物にあると仮定してしまうためです。代わりに、新しいカテゴリで補完するのがよい方法です。

コンペ用データを含む DataFrame rental_listings は読み込み済みです。

지침 1/2

undefined XP
  • 1
    • "mean" 戦略の SimpleImputer オブジェクトを作成します。
    • 欠損している price を平均値で補完します。
  • 2
    • "constant" 戦略の imputer を作成し、fill_value として "MISSING" を使います。
    • 欠損している building を一定の値で補完します。