One-Hot-Encoding
Das Problem bei der Label-Encoding-Methode ist, dass sie implizit eine Rangfolge zwischen den Kategorien annimmt. Ändern wir daher die Kodierungsmethode für die Features „RoofStyle“ und „CentralAir“ auf One-Hot-Encoding. Die DataFrames train und test aus dem House-Prices-Kaggle-Wettbewerb stehen dir in deinem Workspace bereits zur Verfügung.
Denk daran: Bei binären Features (kategorische Features mit nur zwei Ausprägungen) wird empfohlen, ausschließlich einen Label-Encoder zu verwenden.
Dein Ziel ist es, herauszufinden, welches der genannten Features nicht binär ist, und nur dieses per One-Hot-Encoding zu kodieren.
Diese Übung ist Teil des Kurses
Eine Kaggle-Competition in Python gewinnen
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Concatenate train and test together
houses = pd.concat([train, test])
# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)