Label-Encoding
Lass uns die Kodierung kategorialer Variablen angehen. Du arbeitest wieder mit einem Teildatensatz aus dem House-Prices-Wettbewerb auf Kaggle.
Dein Ziel ist es, die kategorialen Features „RoofStyle“ und „CentralAir“ per Label-Encoding zu kodieren. Die DataFrames train und test stehen in deinem Workspace bereits zur Verfügung.
Diese Übung ist Teil des Kurses
Eine Kaggle-Competition in Python gewinnen
Anleitung zur Übung
- Konkateniere die DataFrames
trainundtestzu einem einzelnen DataFramehouses. - Erstelle ein
LabelEncoder-Objekt ohne Argumente und weise eslezu. - Erstelle neue, label-kodierte Features für „RoofStyle“ und „CentralAir“ unter Verwendung desselben Objekts
le.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Concatenate train and test together
houses = ____.____([train, test])
# Label encoder
from sklearn.preprocessing import LabelEncoder
le = ____()
# Create new features
houses['RoofStyle_enc'] = le.fit_transform(houses[____])
houses['CentralAir_enc'] = ____.____(____[____])
# Look at new features
print(houses[['RoofStyle', 'RoofStyle_enc', 'CentralAir', 'CentralAir_enc']].head())