kNN のコツとヒント II：変数の並べ替え

k-最近傍法アルゴリズムは、データの変数を順番にループしながら補完を行います。このとき、他の変数との距離を計算しますが、その中にはすでに前のステップで補完された変数も含まれます。つまり、データの先頭に位置する変数に欠損値が多いほど、その後の距離計算が補完済みの値に大きく依存することになります。これにより、距離計算にノイズが入り込んでしまいます。

そのため、kNN 補完を行う前に、欠損値の数が少ない順に変数を並べ替えておくことが推奨されます。こうすることで、各距離計算をできるだけ実測値に基づいて行い、補完値への依存を最小限に抑えることができます。

tao データでこの手法を試してみましょう。