Imputa i dati mancanti
Hai scoperto che le colonne "price" e "building_id" hanno valori mancanti nel dataset Rental Listing Inquiries. Quindi, prima di passare i dati ai modelli devi imputare questi valori.
La feature numerica "price" verrà codificata con il valore medio dei prezzi non mancanti.
Imputare la feature categorica "building_id" con la categoria più frequente è una cattiva idea, perché implicherebbe che tutti gli appartamenti con "building_id" mancante si trovino nell’edificio più popolare. Un’idea migliore è imputarla con una nuova categoria.
Il DataFrame rental_listings con i dati della competition è già stato caricato per te.
Questo esercizio fa parte del corso
Vincere una competizione Kaggle con Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import SimpleImputer
from sklearn.impute import SimpleImputer
# Create mean imputer
mean_imputer = ____(strategy='____')
# Price imputation
rental_listings[['price']] = mean_imputer.____(____[[____]])