1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ caret を使った Machine Learning

Connected

演習

KNN 補完を使う

前の演習では、乳がんデータセットの欠損値を中央値で補完しましたが、欠損値への対処法はそれだけではありません。

中央値補完の代替として、k-nearest neighbors(KNN)補完があります。これは、現在の行に似ている他の行の値を使って欠損値を置き換える、より高度な補完方法です。実装は単純な中央値補完よりずっと複雑ですが、caret では train() の preProcess 引数を使うことで簡単に試せます。モデル学習前の補完方法を変えるには、preProcess = "knnImpute" と指定するだけです。

指示

100 XP

breast_cancer_x と breast_cancer_y はワークスペースに読み込まれています。

  • train() 関数を使って、乳がんデータセットに glm モデルを当てはめ、knn_model という名前で作成します。
  • 欠損値の処理には KNN 補完を使います。