BaşlayınÜcretsiz Başlayın

İstatistiksel aykırı değer kaldırma

Verilerinin en üst N%’lik kısmını kaldırmak, çok uç noktaların elenmesi için kullanışlıdır; ancak veriler doğru olsa bile her zaman aynı oranda nokta kaldırma dezavantajına sahiptir. Yaygın bir alternatif yaklaşım, ortalamadan üç standart sapmadan daha uzakta kalan verileri kaldırmaktır. Bunu, ilgili sütunun ortalamasını ve standart sapmasını hesaplayıp alt ve üst sınırları bulduktan sonra bu sınırları DataFrame’e bir maske olarak uygulayarak gerçekleştirebilirsin. Bu yöntem, gerçekten geri kalanından farklı olan verilerin kaldırılmasını sağlar ve veriler birbirine yakınsa daha az nokta kaldırır.

Bu egzersiz

Python ile Machine Learning için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • so_numeric_df içindeki ConvertedSalary sütununun standart sapmasını ve ortalamasını hesapla.
  • Üst ve alt sınırları, ortalamanın her iki yönde üç standart sapma uzağı olacak şekilde hesapla.
  • so_numeric_df DataFrame’ini budayarak, ConvertedSalary değeri lower ve upper sınırları içinde olan tüm satırları koru.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Find the mean and standard dev
std = so_numeric_df['ConvertedSalary'].____
mean = so_numeric_df['ConvertedSalary'].____

# Calculate the cutoff
cut_off = std * 3
lower, upper = mean - cut_off, ____

# Trim the outliers
trimmed_df = so_numeric_df[(so_numeric_df['ConvertedSalary'] < ____) \ 
                           & (so_numeric_df['ConvertedSalary'] > ____)]

# The trimmed box plot
trimmed_df[['ConvertedSalary']].boxplot()
plt.show()
Kodu Düzenle ve Çalıştır