標準化を練習しましょう

未知の分布に対して、やみくもにKNNを使うのは危険です。特徴量の分布スケールがそろっていないと、性能が大きく低下します。スケーリングしていない特徴量は距離計算をゆがめ、非現実的な外れ値スコアを返してしまいます。

これに対処する一般的な方法が標準化です。各特徴量から平均を引き、標準偏差で割ります。これにより、その特徴量の平均は0、分散は1になります。

すでに読み込まれているfemalesデータセットで標準化を練習しましょう。