Transformasi pelatihan dan pengujian (II)
Serupa dengan menerapkan scaler yang sama pada himpunan latih dan uji, jika Anda telah menghapus pencilan dari himpunan latih, kemungkinan Anda juga ingin melakukan hal yang sama pada himpunan uji. Sekali lagi, Anda harus memastikan bahwa Anda menggunakan ambang batas yang dihitung hanya dari himpunan latih untuk menghapus pencilan dari himpunan uji.
Seperti pada latihan sebelumnya, kita membagi DataFrame so_numeric_df menjadi himpunan latih (so_train_numeric) dan uji (so_test_numeric).
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Instruksi latihan
- Hitung simpangan baku dan mean dari kolom
ConvertedSalary. - Hitung batas atas dan batas bawah sebagai tiga simpangan baku dari mean ke kedua arah.
- Pangkas DataFrame
so_test_numericuntuk mempertahankan semua baris di manaConvertedSalaryberada di dalam batas bawah dan batas atas.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____
cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off
# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
& (so_test_numeric['ConvertedSalary'] > ____)]