Fehlende Daten imputieren

Du hast herausgefunden, dass die Spalten "price" und "building_id" im Datensatz Rental Listing Inquiries fehlende Werte enthalten. Bevor du die Daten an die Modelle übergibst, musst du diese Werte imputieren.

Das numerische Merkmal "price" wird mit dem Mittelwert der nicht fehlenden Preise aufgefüllt.

Die kategoriale Variable "building_id" mit der am häufigsten vorkommenden Kategorie zu imputieren, ist keine gute Idee, denn das würde bedeuten, dass alle Wohnungen mit fehlender "building_id" im beliebtesten Gebäude liegen. Besser ist es, eine neue Kategorie zu verwenden.

Der DataFrame rental_listings mit den Wettbewerbsdaten ist bereits für dich eingelesen.

Diese Übung ist Teil des Kurses

Eine Kaggle-Competition in Python gewinnen

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import SimpleImputer
from sklearn.impute import SimpleImputer

# Create mean imputer
mean_imputer = ____(strategy='____')

# Price imputation
rental_listings[['price']] = mean_imputer.____(____[[____]])

Code bearbeiten und ausführen