Ontbrekende data imputeren
Je hebt ontdekt dat de kolommen "price" en "building_id" ontbrekende waarden bevatten in de Rental Listing Inquiries-gegevensset. Voordat je de data aan de modellen doorgeeft, moet je deze waarden imputeren.
De numerieke feature "price" wordt gecodeerd met de gemiddelde waarde van de niet-ontbrekende prijzen.
De categorische feature "building_id" imputeren met de meest voorkomende categorie is een slecht idee, want dan zouden alle appartementen met een ontbrekende "building_id" zogenaamd in het populairste gebouw liggen. Beter is om hiervoor een nieuwe categorie te gebruiken.
De DataFrame rental_listings met competitiegegevens is alvast voor je ingelezen.
Deze oefening maakt deel uit van de cursus
Een Kaggle-competitie winnen met Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import SimpleImputer
from sklearn.impute import SimpleImputer
# Create mean imputer
mean_imputer = ____(strategy='____')
# Price imputation
rental_listings[['price']] = mean_imputer.____(____[[____]])