統計的外れ値の除去

データの上位 N% を取り除く方法は、明らかにおかしな点を除去するのに有用ですが、データが正しくても常に同じ割合の点を削除してしまう欠点があります。よく使われる代替手法として、平均から標準偏差の3倍よりも遠いデータを除去する方法があります。これを実装するには、まず対象列の平均と標準偏差を計算して上下のしきい値を求め、そのしきい値をマスクとして DataFrame に適用します。この方法なら、他と本質的に異なるデータだけを除外でき、データが互いに近い場合は削除される点が少なくなります。