İstatistiksel aykırı değer kaldırma
Verilerinin en üst N%’lik kısmını kaldırmak, çok uç noktaların elenmesi için kullanışlıdır; ancak veriler doğru olsa bile her zaman aynı oranda nokta kaldırma dezavantajına sahiptir. Yaygın bir alternatif yaklaşım, ortalamadan üç standart sapmadan daha uzakta kalan verileri kaldırmaktır. Bunu, ilgili sütunun ortalamasını ve standart sapmasını hesaplayıp alt ve üst sınırları bulduktan sonra bu sınırları DataFrame’e bir maske olarak uygulayarak gerçekleştirebilirsin. Bu yöntem, gerçekten geri kalanından farklı olan verilerin kaldırılmasını sağlar ve veriler birbirine yakınsa daha az nokta kaldırır.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
so_numeric_dfiçindekiConvertedSalarysütununun standart sapmasını ve ortalamasını hesapla.- Üst ve alt sınırları, ortalamanın her iki yönde üç standart sapma uzağı olacak şekilde hesapla.
so_numeric_dfDataFrame’ini budayarak,ConvertedSalarydeğerilowerveuppersınırları içinde olan tüm satırları koru.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Find the mean and standard dev
std = so_numeric_df['ConvertedSalary'].____
mean = so_numeric_df['ConvertedSalary'].____
# Calculate the cutoff
cut_off = std * 3
lower, upper = mean - cut_off, ____
# Trim the outliers
trimmed_df = so_numeric_df[(so_numeric_df['ConvertedSalary'] < ____) \
& (so_numeric_df['ConvertedSalary'] > ____)]
# The trimmed box plot
trimmed_df[['ConvertedSalary']].boxplot()
plt.show()