1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Machine Learning のための特徴量エンジニアリング

Connected

演習

統計的外れ値の除去

データの上位 N% を取り除く方法は、明らかにおかしな点を除去するのに有用ですが、データが正しくても常に同じ割合の点を削除してしまう欠点があります。よく使われる代替手法として、平均から標準偏差の3倍よりも遠いデータを除去する方法があります。これを実装するには、まず対象列の平均と標準偏差を計算して上下のしきい値を求め、そのしきい値をマスクとして DataFrame に適用します。この方法なら、他と本質的に異なるデータだけを除外でき、データが互いに近い場合は削除される点が少なくなります。

指示

100 XP
  • so_numeric_df の ConvertedSalary 列の標準偏差と平均を計算します。
  • 平均から両方向に標準偏差の3倍離れた位置を、上限・下限のしきい値として計算します。
  • lower と upper の範囲内に ConvertedSalary がある行だけを残すように、so_numeric_df DataFrame を絞り込みます。