Label-encoding
We gaan aan de slag met het encoden van categorische variabelen. Je werkt opnieuw met een deel van de House Prices Kaggle-competitie.
Je doel is om de categorische features "RoofStyle" en "CentralAir" te encoden met label-encoding. De DataFrames train en test zijn al beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Een Kaggle-competitie winnen met Python
Oefeninstructies
- Concateneer de DataFrames
trainentesttot één DataFramehouses. - Maak een
LabelEncoder-object zonder argumenten en wijs dit toe aanle. - Maak nieuwe label-gecodeerde features voor "RoofStyle" en "CentralAir" met hetzelfde
le-object.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Concatenate train and test together
houses = ____.____([train, test])
# Label encoder
from sklearn.preprocessing import LabelEncoder
le = ____()
# Create new features
houses['RoofStyle_enc'] = le.fit_transform(houses[____])
houses['CentralAir_enc'] = ____.____(____[____])
# Look at new features
print(houses[['RoofStyle', 'RoofStyle_enc', 'CentralAir', 'CentralAir_enc']].head())