Yüzdeye dayalı aykırı değer kaldırma
Verinin küçük bir kısmının analizi aşırı olumsuz etkilemesini önlemenin bir yolu, sütundaki en büyük ve/veya en küçük değerlerin belirli bir yüzdesini kaldırmaktır. Bunu, ilgili çeyreliği bularak ve bir maske ile veriyi buna göre kırparak yapabilirsin. Bu yaklaşım, özellikle veri kümendeki en yüksek değerlerden kaçınmak istediğinde faydalıdır. Bu yöntemi kullanırken, aykırı değer olmasa bile veri kümesinden yine de aynı en üst N yüzdelik dilimin kaldırılacağını unutmamalısın.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
ConvertedSalarysütununun %95. çeyreliğini bul.so_numeric_dfDataFrame'ini,ConvertedSalarydeğeri %95. çeyreğinden küçük olan tüm satırları tutacak şekilde kırp.so_numeric_df[['ConvertedSalary']]için histogram çiz.trimmed_df[['ConvertedSalary']]için histogram çiz.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)
# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]
# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()
# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()