Imputasi data hilang
Anda menemukan bahwa kolom "price" dan "building_id" memiliki nilai yang hilang dalam himpunan data Rental Listing Inquiries. Jadi, sebelum memberikan data ke model, Anda perlu mengimputasi nilai-nilai tersebut.
Fitur numerik "price" akan di-encode dengan nilai rata-rata dari harga yang tidak hilang.
Mengimputasi fitur kategorikal "building_id" dengan kategori yang paling sering bukanlah ide yang baik, karena itu berarti semua apartemen dengan "building_id" yang hilang berada di gedung yang paling populer. Ide yang lebih baik adalah mengimputasinya dengan kategori baru.
DataFrame rental_listings berisi data kompetisi telah dibaca untuk Anda.
Latihan ini adalah bagian dari kursus
Memenangi Kompetisi Kaggle dengan Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import SimpleImputer
from sklearn.impute import SimpleImputer
# Create mean imputer
mean_imputer = ____(strategy='____')
# Price imputation
rental_listings[['price']] = mean_imputer.____(____[[____]])