Penghapusan pencilan berbasis persentase
Salah satu cara untuk memastikan sebagian kecil data tidak berdampak terlalu negatif adalah dengan menghapus persentase tertentu dari nilai terbesar dan/atau terkecil pada kolom. Ini dapat dilakukan dengan menemukan kuantil yang relevan dan memangkas data dengan menggunakannya sebagai mask. Pendekatan ini sangat berguna jika Anda khawatir nilai tertinggi dalam himpunan data sebaiknya dihindari. Saat menggunakan pendekatan ini, Anda harus ingat bahwa meskipun tidak ada pencilan, cara ini tetap akan menghapus persentase N teratas yang sama dari himpunan data.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Temukan kuantil ke-95 dari kolom
ConvertedSalary. - Pangkas DataFrame
so_numeric_dfuntuk mempertahankan semua baris di manaConvertedSalarykurang dari kuantil ke-95 miliknya. - Plot histogram
so_numeric_df[['ConvertedSalary']]. - Plot histogram
trimmed_df[['ConvertedSalary']].
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)
# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]
# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()
# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()