1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Machine Learning のための特徴量エンジニアリング

Connected

演習

割合に基づく外れ値の除去

データのごく一部が分析に過度な悪影響を与えないようにする一つの方法は、列に含まれる最も大きい値または最も小さい値のうち、一定の割合を取り除くことです。これは、該当する分位点を求め、マスクを使ってデータをトリミングすることで実現できます。特に、データセット中の最大値付近を避けたい場合に有効です。この方法を使うときは、外れ値が存在しない場合でも、データセットから上位 N パーセントが必ず削除される点を忘れないでください。

指示

100 XP
  • ConvertedSalary 列の 95 分位点を求めます。
  • ConvertedSalary がその 95 分位点より小さい行のみを残すように、so_numeric_df DataFrame をトリミングします。
  • so_numeric_df[['ConvertedSalary']] のヒストグラムを描画します。
  • trimmed_df[['ConvertedSalary']] のヒストグラムを描画します。