1. 学ぶ
  2. /
  3. コース
  4. /
  5. R による欠損データの補完処理

Connected

演習

kNN のコツとヒント II:変数の並べ替え

k-最近傍法アルゴリズムは、データの変数を順番にループしながら補完を行います。このとき、他の変数との距離を計算しますが、その中にはすでに前のステップで補完された変数も含まれます。つまり、データの先頭に位置する変数に欠損値が多いほど、その後の距離計算が補完済みの値に大きく依存することになります。これにより、距離計算にノイズが入り込んでしまいます。

そのため、kNN 補完を行う前に、欠損値の数が少ない順に変数を並べ替えておくことが推奨されます。こうすることで、各距離計算をできるだけ実測値に基づいて行い、補完値への依存を最小限に抑えることができます。

tao データでこの手法を試してみましょう。

指示

100 XP
  • パイプラインの最初のステップで、tao の各列の欠損値の数を計算してください。
  • 次に、欠損値の数が少ない順に変数を並べ替え、その列名を取り出して vars_by_NAs に代入してください。
  • select() を使って、vars_by_NAs に保存された順番で tao の変数を並べ替えてください。
  • 並べ替えたデータに k-最近傍法による補完を実行し、結果を tao_imp に代入してください。