1. Learn
  2. /
  3. Courses
  4. /
  5. Anomaly Detection in Python

Connected

Exercise

標準化を練習しましょう

未知の分布に対して、やみくもにKNNを使うのは危険です。特徴量の分布スケールがそろっていないと、性能が大きく低下します。スケーリングしていない特徴量は距離計算をゆがめ、非現実的な外れ値スコアを返してしまいます。

これに対処する一般的な方法が標準化です。各特徴量から平均を引き、標準偏差で割ります。これにより、その特徴量の平均は0、分散は1になります。

すでに読み込まれているfemalesデータセットで標準化を練習しましょう。

Instructions

100 XP
  • StandardScaler()のインスタンスを作成し、ssとして保存します。
  • 特徴量配列と目的変数配列をそれぞれXとyに抽出します。目的変数はweightkg列です。
  • StandardScaler()をXに対して適合させ、同時に変換します。
  • 上記の処理を、XのDataFrameの列名を保持する形でも繰り返します。