One-hot-encoding

Het probleem met label-encoding is dat het impliciet aanneemt dat er een rangorde is tussen de categorieën. Laten we daarom de encodermethode voor de features "RoofStyle" en "CentralAir" veranderen naar one-hot-encoding. De train- en test-DataFrames uit de House Prices Kaggle-competitie zijn al beschikbaar in je workspace.

Onthoud dat als je met binaire features werkt (categorische features met maar twee categorieën), het wordt aangeraden om alleen een label-encoder toe te passen.

Je doel is om te bepalen welke van de genoemde features niet binair is, en alleen voor die feature one-hot-encoding toe te passen.

Deze oefening maakt deel uit van de cursus

Een Kaggle-competitie winnen met Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Concatenate train and test together
houses = pd.concat([train, test])

# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)

Code bewerken en uitvoeren