MulaiMulai sekarang secara gratis

Penghapusan pencilan berbasis persentase

Salah satu cara untuk memastikan sebagian kecil data tidak berdampak terlalu negatif adalah dengan menghapus persentase tertentu dari nilai terbesar dan/atau terkecil pada kolom. Ini dapat dilakukan dengan menemukan kuantil yang relevan dan memangkas data dengan menggunakannya sebagai mask. Pendekatan ini sangat berguna jika Anda khawatir nilai tertinggi dalam himpunan data sebaiknya dihindari. Saat menggunakan pendekatan ini, Anda harus ingat bahwa meskipun tidak ada pencilan, cara ini tetap akan menghapus persentase N teratas yang sama dari himpunan data.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk Machine Learning di Python

Lihat Kursus

Petunjuk latihan

  • Temukan kuantil ke-95 dari kolom ConvertedSalary.
  • Pangkas DataFrame so_numeric_df untuk mempertahankan semua baris di mana ConvertedSalary kurang dari kuantil ke-95 miliknya.
  • Plot histogram so_numeric_df[['ConvertedSalary']].
  • Plot histogram trimmed_df[['ConvertedSalary']].

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)

# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]

# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()

# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()
Edit dan Jalankan Kode