Ontbrekende data imputeren

Je hebt ontdekt dat de kolommen "price" en "building_id" ontbrekende waarden bevatten in de Rental Listing Inquiries-gegevensset. Voordat je de data aan de modellen doorgeeft, moet je deze waarden imputeren.

De numerieke feature "price" wordt gecodeerd met de gemiddelde waarde van de niet-ontbrekende prijzen.

De categorische feature "building_id" imputeren met de meest voorkomende categorie is een slecht idee, want dan zouden alle appartementen met een ontbrekende "building_id" zogenaamd in het populairste gebouw liggen. Beter is om hiervoor een nieuwe categorie te gebruiken.

De DataFrame rental_listings met competitiegegevens is alvast voor je ingelezen.

Deze oefening maakt deel uit van de cursus

Een Kaggle-competitie winnen met Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import SimpleImputer
from sklearn.impute import SimpleImputer

# Create mean imputer
mean_imputer = ____(strategy='____')

# Price imputation
rental_listings[['price']] = mean_imputer.____(____[[____]])

Code bewerken en uitvoeren