Visualizando importâncias de variáveis: quais recursos são mais importantes no meu conjunto de dados
Outra forma de visualizar seus modelos XGBoost é examinar a importância de cada coluna de variável do conjunto de dados original dentro do modelo.
Uma maneira simples de fazer isso é contar quantas vezes cada variável é usada para dividir nós ao longo de todas as rodadas de boosting (árvores) no modelo e, em seguida, visualizar o resultado como um gráfico de barras, com as variáveis ordenadas pelo número de vezes em que aparecem. O XGBoost tem a função plot_importance() que permite fazer exatamente isso, e você vai poder usá-la neste exercício!
Este exercício faz parte do curso
Extreme Gradient Boosting com XGBoost
Instruções do exercício
- Crie seu
DMatrixa partir deXey, como antes. - Crie um dicionário de parâmetros com
"objective"apropriado ("reg:squarederror") e"max_depth"igual a4. - Treine o modelo com
10rodadas de boosting, exatamente como no exercício anterior. - Use
xgb.plot_importance()e passe o modelo treinado para gerar o gráfico de importâncias das variáveis.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create the DMatrix: housing_dmatrix
housing_dmatrix = ____
# Create the parameter dictionary: params
params = ____
# Train the model: xg_reg
xg_reg = ____
# Plot the feature importances
____
plt.show()