Feature-importances visualiseren: welke features zijn het belangrijkst in mijn gegevensset

Een andere manier om je XGBoost-modellen te visualiseren is door te kijken naar het belang van elke featurekolom uit de oorspronkelijke gegevensset binnen het model.

Een eenvoudige manier is te tellen hoe vaak op elke feature gesplitst wordt over alle boostingrondes (bomen) in het model, en het resultaat daarna als staafdiagram te tonen, met de features geordend op hoe vaak ze voorkomen. XGBoost heeft een functie plot_importance() waarmee je precies dit kunt doen, en in deze oefening ga je ermee aan de slag!

Deze oefening maakt deel uit van de cursus

Extreme Gradient Boosting met XGBoost

Cursus bekijken

Oefeninstructies

Maak je DMatrix van X en y, zoals eerder.
Maak een parameterdictionary met de juiste "objective" ("reg:squarederror") en een "max_depth" van 4.
Train het model met 10 boostingrondes, net als in de vorige oefening.
Gebruik xgb.plot_importance() en geef het getrainde model door om de grafiek met feature-importances te genereren.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create the DMatrix: housing_dmatrix
housing_dmatrix = ____

# Create the parameter dictionary: params
params = ____

# Train the model: xg_reg
xg_reg = ____

# Plot the feature importances
____
plt.show()

Code bewerken en uitvoeren