Transformasi pelatihan dan pengujian (II)
Serupa dengan menerapkan scaler yang sama pada himpunan latih dan uji, jika Anda telah menghapus pencilan dari himpunan latih, kemungkinan Anda juga ingin melakukan hal yang sama pada himpunan uji. Sekali lagi, Anda harus memastikan bahwa Anda menggunakan ambang batas yang dihitung hanya dari himpunan latih untuk menghapus pencilan dari himpunan uji.
Seperti pada latihan sebelumnya, kita membagi DataFrame so_numeric_df menjadi himpunan latih (so_train_numeric) dan uji (so_test_numeric).
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Hitung simpangan baku dan mean dari kolom
ConvertedSalary. - Hitung batas atas dan batas bawah sebagai tiga simpangan baku dari mean ke kedua arah.
- Pangkas DataFrame
so_test_numericuntuk mempertahankan semua baris di manaConvertedSalaryberada di dalam batas bawah dan batas atas.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____
cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off
# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
& (so_test_numeric['ConvertedSalary'] > ____)]