IniziaInizia gratis

Imputa i dati mancanti

Hai scoperto che le colonne "price" e "building_id" hanno valori mancanti nel dataset Rental Listing Inquiries. Quindi, prima di passare i dati ai modelli devi imputare questi valori.

La feature numerica "price" verrà codificata con il valore medio dei prezzi non mancanti.

Imputare la feature categorica "building_id" con la categoria più frequente è una cattiva idea, perché implicherebbe che tutti gli appartamenti con "building_id" mancante si trovino nell’edificio più popolare. Un’idea migliore è imputarla con una nuova categoria.

Il DataFrame rental_listings con i dati della competition è già stato caricato per te.

Questo esercizio fa parte del corso

Vincere una competizione Kaggle con Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import SimpleImputer
from sklearn.impute import SimpleImputer

# Create mean imputer
mean_imputer = ____(strategy='____')

# Price imputation
rental_listings[['price']] = mean_imputer.____(____[[____]])
Modifica ed esegui il codice