BaşlayınÜcretsiz Başlayın

Yüzdeye dayalı aykırı değer kaldırma

Verinin küçük bir kısmının analizi aşırı olumsuz etkilemesini önlemenin bir yolu, sütundaki en büyük ve/veya en küçük değerlerin belirli bir yüzdesini kaldırmaktır. Bunu, ilgili çeyreliği bularak ve bir maske ile veriyi buna göre kırparak yapabilirsin. Bu yaklaşım, özellikle veri kümendeki en yüksek değerlerden kaçınmak istediğinde faydalıdır. Bu yöntemi kullanırken, aykırı değer olmasa bile veri kümesinden yine de aynı en üst N yüzdelik dilimin kaldırılacağını unutmamalısın.

Bu egzersiz

Python ile Machine Learning için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • ConvertedSalary sütununun %95. çeyreliğini bul.
  • so_numeric_df DataFrame'ini, ConvertedSalary değeri %95. çeyreğinden küçük olan tüm satırları tutacak şekilde kırp.
  • so_numeric_df[['ConvertedSalary']] için histogram çiz.
  • trimmed_df[['ConvertedSalary']] için histogram çiz.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)

# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]

# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()

# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()
Kodu Düzenle ve Çalıştır