ComenzarEmpieza gratis

Imputar datos faltantes

Has descubierto que las columnas "price" y "building_id" tienen valores faltantes en el conjunto de datos Rental Listing Inquiries. Así que, antes de pasar los datos a los modelos, necesitas imputar esos valores.

La característica numérica "price" se codificará con la media de los precios no faltantes.

Imputar la característica categórica "building_id" con la categoría más frecuente es una mala idea, porque implicaría que todos los apartamentos con "building_id" faltante están en el edificio más popular. Es mejor imputarla con una categoría nueva.

El DataFrame rental_listings con los datos de la competición ya está cargado para ti.

Este ejercicio forma parte del curso

Cómo ganar una competición de Kaggle con Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import SimpleImputer
from sklearn.impute import SimpleImputer

# Create mean imputer
mean_imputer = ____(strategy='____')

# Price imputation
rental_listings[['price']] = mean_imputer.____(____[[____]])
Editar y ejecutar código