1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで欠損データに対処する

Connected

연습 문제

KNN による代入

データセットには相関のある特徴量が必ず含まれます。したがって、欠損値を補完(代入)するときには、それらを要因として考慮することが重要です。Machine Learning のモデルは、DataFrame 内の特徴量を使って相関やパターンを見つけ、選んだ特徴量を予測します。

最もシンプルで効率的なモデルの1つが K Nearest Neighbors です。既存のデータ点に最も似ている「K」個の点を見つけて、欠損値を代入します。

この演習では、diabetes DataFrame はすでに読み込まれています。fancyimpute パッケージを使って、diabetes DataFrame の欠損値を代入してください。

지침

100 XP
  • fancyimpute から KNN をインポートします。
  • diabetes を diabetes_knn_imputed にコピーします。
  • KNN() オブジェクトを作成し、knn_imputer に代入します。
  • diabetes_knn_imputed DataFrame を代入(impute)します。