Menangani pencilan dengan simpangan baku
Diberikan sebuah basetable yang memiliki satu variabel "age". Nilai usia diisikan secara manual dalam formulir online oleh donor sehingga rentan terhadap kesalahan pengetikan dan dapat mengandung pencilan. Ganti semua nilai yang lebih rendah daripada rata-rata usia dikurangi 3 kali simpangan baku usia dengan nilai tersebut, dan ganti semua nilai yang lebih tinggi daripada rata-rata usia ditambah 3 kali simpangan baku usia dengan nilai tersebut.
Latihan ini adalah bagian dari kursus
Predictive Analytics Tingkat Menengah dengan Python
Petunjuk latihan
- Cetak nilai maksimum dari "age".
- Hitung rata-rata dan simpangan baku dari "age".
- Hitung batas bawah dan batas atas menggunakan aturan praktis simpangan baku.
- Tambahkan variabel "age_mod" ke basetable dengan pencilan yang telah diganti, lalu cetak nilai maksimum baru dari "age _mod".
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Show the maximum age
print(___["___"].___())
# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()
# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____
# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____)
for a in basetable["age"]]))
print(___["___"].___())