One-hot-encoding
Het probleem met label-encoding is dat het impliciet aanneemt dat er een rangorde is tussen de categorieën. Laten we daarom de encodermethode voor de features "RoofStyle" en "CentralAir" veranderen naar one-hot-encoding. De train- en test-DataFrames uit de House Prices Kaggle-competitie zijn al beschikbaar in je workspace.
Onthoud dat als je met binaire features werkt (categorische features met maar twee categorieën), het wordt aangeraden om alleen een label-encoder toe te passen.
Je doel is om te bepalen welke van de genoemde features niet binair is, en alleen voor die feature one-hot-encoding toe te passen.
Deze oefening maakt deel uit van de cursus
Een Kaggle-competitie winnen met Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Concatenate train and test together
houses = pd.concat([train, test])
# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)