1. 学ぶ
  2. /
  3. コース
  4. /
  5. Anomaly Detection in Python

Connected

演習

contamination の選び方

コード自体は数行で書けますが、適切な contamination を見つけるには注意が必要です。

contamination パラメータは IForst の結果にのみ影響します。IForest が生の異常スコアを生成したあと、contamination に基づいて上位の n% の異常スコアを外れ値として選びます。たとえば 5% の contamination なら、異常スコアが上位 5% の観測値が外れ値として選ばれます。

チューニング方法については次の動画で説明しますが、ここではまず、このパラメータに任意の値を設定する練習をします。

データは big_mart として読み込まれています。

指示

100 XP
  • contamination を 5% に設定して、IForest() 推定器をインスタンス化します。
  • そのインスタンスを Big Mart の売上データに対して学習(fit)させます。